赞
踩
LLMs:LLMs大语言模型评估的简介(两标(NLUGR指标/REBT)+六性(理解性+生成性{PPL}+多样性+泛化性+能耗性+可解释性)+九维(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】),大模型排行榜多种),两类基准——通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C-EVAL/Xiezhi】、基于工具【API-Bank/ToolBench】)、特定下游任务基准(MATH/CUAD/MultiMedQA/GaoKao/SOCKET/CVALUES)之详细攻略
目录
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。