赞
踩
目录
1.1 特定任务指标(Task-Specific Metrics)
1.2 研究机构发布的基准(Research Benchmarks)
1.3 LLM自我评估(LLM Self-Evaluation)
前言
第一章节介绍了机器学习(Machine Learning, ML)和深度学习(Deep Learning,DL)领域评估指标,包含分类任务、预测任务、回归任务、常用损失值;第二章节介绍了大语言模型(LLMs)领域评测指标;第三章节介绍了多模态(MLLMs)领域评估指标;第四章节介绍了知识召回业务领域的评估指标。
(懒得写,查了十几篇资料,看筛出的如下两个blog就够了,毕竟没必要重复造轮子bushi)
上图,机器学习模型的评估指标分预测任务、分类任务、回归任务、常用损失函数四个部分介绍。详情转至该章节链接Link 1。
其中,在分类任务中,常见评估指标有:混淆矩阵(Confuse Matrix)、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、P-R曲线(Precision-Recall Curve)、F1 Score、ROC、AUC,指标计算详情转至Link 2。
(该片段摘抄自该章节Link 1)
3.1 MSE计算简便,但MAE对异常点具有更好的鲁棒性,RMSE是MSE的平方根,与MAE在同一量级;
3.2 MSE对误差取了平方(令e=真实值-预测值),因此若e>1,则MSE会进一步增大误差。如果数据中存在异常点,那么e值就会很大,而e则会远大于|e|。因此,相对于使用MAE计算损失,使用MSE的模型会赋予异常点更大的权重;
3.3 用RMSE计算损失的模型会以牺牲了其他样本的误差为代价,朝着减小异常点误差的方向更新,然而这就会降低模型的整体性能。如果训练数据被异常点所污染,那么MAE损失就更好用。
3.4 MAE存在一个严重的问题(特别是对于神经网络):更新的梯度始终相同,也就是说,即使对于很小的损失值,梯度也很大,这样不利于模型的学习。为了解决这个缺陷,可以使用变化的学习率,在损失接近最小值时降低学习率。而MSE在这种情况下的表现就很好,即便使用固定的学习率也可以有效收敛。MSE损失的梯度随损失增大而增大,而损失趋于0时则会减小。这使得在训练结束时,使用MSE模型的结果会更精确。
3.5 如何选择MAE、MSE、RMSE:(1)若异常点代表在商业中很重要的异常情况,并且需要被检测出来,则选用MSE;(2)若只把异常值当作受损数据,则选用MAE。处理异常点时,MAE损失函数更稳定,但它的导数不连续,因此求解效率较低。MSE损失函数对异常点更敏感,但通过令其导数为0,可以得到更稳定的封闭解。
第二章节内容参考自:
Link 1:大模型落地最后一公里:111页全面综述大模型评测 | 机器之心 (jiqizhixin.com)
Link 2:揭秘大型语言模型(LLM)的评估方法-百度开发者中心 (baidu.com)
(指标算法实现详见Link 3)
(1)文本摘要/文本生成:ROUGE(Recall-Oriented Understudy for Gisting Evaluation)指标。包含ROUGE-1召回率、ROUGE-1精度和ROUGE-1 F1_Score;
(2)机器翻译:BLEU(Bilingual Evaluation Understudy)指标。
(1)常用基准数据:MMLU、CMMLU、GLUE、SuperGLUE、GSM8k、HumanEval等数据集;
(2)面临问题:(1)数据污染/数据泄露;(2)刻意刷榜,从而模糊了模型本身性能/真实效果;(3)单一维度衡量很难适配LLMs多元的应用场景、展示其完整性能——由此可以学习该章节第2部分内容(按不同维度划分的评估)。
用一个性能较优的LLM给其它LLMs计算指标、打分评估。常用自我评估指标包括困惑度(perplexity)、多样性和一致性等。
(1)众包人力评估:允许人类向两个匿名模型(例如,ChatGPT、Claude、Llama)提出任何问题,并投票选出更好的模型。当人类决定每一场“battle”的获胜者时,模型会根据其ELO分数在排行榜上进行排名。
(2)评价:最可靠,但实施起来最慢、最昂贵,尤其是当需要高技能的人类专家时。
(下图最终结论来自Link 3,感谢作者为爱发电。此外,勿喷博主本人,太懒、基础性的知识也没必要重复造轮子,写博客也只是为了方便知识点分享、和日后review。纯纯为爱发电QAQ......)
(1)问答能力评测;
(2)知识补全能力评测;
(3)推理能力评测——常识推理;逻辑推理;多跳推理;数学推理;
(4)工具学习能力评测。
(1)道德和伦理评测——评估其生成内容中是否存在违背社会公认的道德伦理规范的情况。评价准则:基于专家定义的道德伦理规范评测;基于众包方式的道德伦理规范评测;AI 辅助的道德伦理规范评测;基于混合模式(如专家定义 + 众包方式)的道德伦理规范评测;
(2)偏见性评测——其生成的内容是否会对某些社会群体产生不利影响或伤害;
(3)人类偏好评测;
(4)毒性评——:评估其生成的内容中是否含有仇恨、侮辱、淫秽等有害信息;
(5)诚实性(真实性)评测——检测模型生成的内容是否真实、准确,以及是否符合事实。评价准则:基于自然语言推理的评测方法;基于问题生成和问答的方法;基于大模型的方法。
(1)鲁棒性评测——提示词鲁棒性,即通过在提示词中加入拼写错误、近义词等模拟用户输入的噪音来评估大模型的鲁棒性;任务鲁棒性,即通过生成各种下游任务的对抗样本评估大模型的鲁棒性;对齐鲁棒性,大模型通常会经过对齐训练以确保其生成的内容与人类的偏好和价值对齐,防止模型生成有害信息;
(2)风险评测——大模型的行为评测,即通过与大模型进行直接交互的方式,评估大模型是否存在追求权力和资源,产生自我保持等潜在危险行为或倾向。将大模型视为智能体进行评测,即在特定的模拟环境中对大模型进行评测,如模拟游戏环境、模拟网上购物或网上冲浪等场景。与大模型的行为评测不同,此项评测更侧重于大模型的自主性以及其与环境和其它大模型之间的复杂交互。
行业大模型分别有法律、金融、医疗等领域大模型。行业大模型一般都经过了特定领域数据的微调,更加专注于某一特定领域的知识和应用。深入了解行业大模型能力水平,发现行业模型潜在缺陷以便改进和优化,需要对行业大模型进行深入评测。
大模型评测榜单举例:大模型代码能力评测对比 | 当前主流大模型在代码能力上的表现总榜单 | 数据学习 (DataLearner)
(挖坑,待更.....)
(挖坑,待更......)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。