当前位置:   article > 正文

LLMs:LLMs大语言模型评估的简介(两标+六性+九维,大模型排行榜多种),两类基准—通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【Super_llms之ppl

llms之ppl

LLMs:LLMs大语言模型评估的简介(两标(NLUGR指标/REBT)+六性(理解性+生成性{PPL}+多样性+泛化性+能耗性+可解释性)+九维(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】),大模型排行榜多种),两类基准——通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C-EVAL/Xiezhi】、基于工具【API-Bank/ToolBench】)、特定下游任务基准(MATH/CUAD/MultiMedQA/GaoKao/SOCKET/CVALUES)之详细攻略

目录

相关文章

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/612820
推荐阅读
相关标签
  

闽ICP备14008679号