当前位置:   article > 正文

大模型的性能评测的简单概要_大模型性能测试

大模型性能测试

写在前面

本文不推荐打算认真做本领域的同学阅读,本文只是作为一个简单的概要对于大模型的评测做一个十分简要的介绍与当前的成果展示,预期在未来几天,笔者会进一步的撰写相关的一些具体的评测指标的介绍,本文主要基于arxiv上的论文:A Survey on Evaluation of Large Language Models,推荐打算进一步深耕本领域的同学进行进一步的阅读,如果您只是做大模型相关的工作,想要简单的了解以下目前在评测上的工作,又苦于英文水平不足,那本文还算是比较合适的。

大模型的评估

为什么文明需要对于大模型进行评估,并对其进行如此多的研究?

  • 合理的评估方案可以帮助我们更好的理解大模型的优缺点,如经过了一系列的测试后,PromptBench发现了大模型对于对抗性提示十分的敏感。
  • 合理的评价有助于直到未来的交互设计方案。
  • 大模型的安全性和可靠性在目前的使用背景下极其重要。
  • 随着大模型的不断发展与能力的涌现,以往的评估策略可能会逐渐的过时。

对于大模型的评估,可以用三个单次进行简单的概括,即:What、Where、How。

  1. 我们该评估什么东西?
  2. 我们应该在哪些地方找到资源评估他?
  3. 我们如何对他进行评估?

AI模型的评估算法概述

目前的基础AI评估标准方法可以该数为以下几个:

  • k-fold cross-validation
  • holdout validation
  • leave one out cross-validation
  • bootstrap
  • reduced set

但是,我们关注到,随着训练规模的越来越大,一些传统的评估方案可能无法对于深度学习模型尤其是大模型进行有效的评估,因此,我们发展出了对于静态的验证集进行评估作为深度学习评估的标准方案,如GLUE等等。

我们该评估什么?

本部分的目的在于展示,我们的对于大模型的评估应该聚焦在哪些地方,在开头的综述中,作者对于这些工作进行了极其系统的陈述,本文在此仅仅只是对其进行了简单的列举并附加了少量的现有结果。

基本的自然语言处理

目前绝大多数的工作都集中在自然语言的处理上,总的来说,可以概括为理解、推理、生成和性能四个维度。

  • 自然语言理解

    • 情绪分析(Sentiment analysis)
    • 文本分类(Text classification)
    • 自然语言推理(Natural language inference (NLI) )
    • 语义的理解(Semantic understanding)
    • 社交知识理解(Semantic understanding)
  • 推理(Reasoning.)

    与NLI的区别:

    NLI表达的是确定给定的“假设”是否在逻辑上遵循“前提”。

    而推理却可以描述为以下四个模块:

    • mathematical reasoning
    • commonsense reasoning
    • logical reasoning
    • domain-specific reasoning
  • 自然语言生成

    • 总结与摘要
    • 对话
    • 翻译
    • 问答
    • 句子风格迁移与转换
    • 写作任务
    • 文本生成
  • 多语言任务

  • 事实性

appendix:关于事实性的当前评测结果

基本的测试水平:GPT-4、BingChat距离完全准确目前只有15%左右的差距。

目前对于事实一致性的评价方法缺乏统一的比较框架,相关分数与二元的标签参考价值有限。

关于事实评估,目前的一些有趣的工作结果包含:

  • 不考虑外部知识,将相关性分数转化为二元的标签:https://arxiv.org/abs/2204.04991(NAACL 2022)
  • 基于信息论的评测方法:https://arxiv.org/abs/2306.06264
  • 分解原子事实,评估其正确性:https://arxiv.org/abs/2305.14251(EMNLP 2023)
  • TruthfulQA数据集:https://arxiv.org/abs/2109.07958(ACL 2022)

鲁棒性、伦理、偏见与可信度

  • 鲁棒性

    • OOD问题的鲁棒性
    • adversarial问题的鲁棒性
  • 偏见问题

    • 社会偏见
    • 文化偏见
    • 道德偏见
    • 政治偏见
    • 文化价值观偏见
  • 伦理问题

  • 可信问题

Natural Science and Engineering

  • Mathematics
  • General science
  • Engineering
    • 代码生成:在贪心问题、动态规划、搜索问题上已经展现出了强大的能力,但是对于图和树等数据结构依旧有待进一步的提升。
    • 软件工程
    • 常识性计划

其他任务

  • 医学任务
    • queries
    • examination
    • assistants
  • 社会科学
  • Agent Applications
  • 教育
  • 搜索与推荐系统
  • 人格测试
  • 其他特定领域

Where:数据集和Benchmark

本部分笔者只进行了简单的了解,有兴趣的推荐阅读原文,也可以根据自己目前的需要,阅读下文对应的一些Benchmark。

BenchmarkFocusDomainEvaluation Criteria
SOCKETSocial knowledgeSpecific downstream taskSocial language understanding
MMEMultimodal LLMsMulti-modal taskAbility of perception and cognition
XiezhiComprehensive domain knowledgeGeneral language taskOverall performance across multiple benchmarks
Choice-75Script learningSpecific downstream taskOverall performance of LLMs
CUADLegal contract reviewSpecific downstream taskLegal contract understanding
TRUSTGPTEthicSpecific downstream taskToxicity bias and value-alignment
MMLUText modelsGeneral language taskMultitask accuracy
MATHMathematical problemSpecific downstream taskMathematical ability
APPSCoding challenge competenceSpecific downstream taskCode generation ability
CELLOComplex instructionsSpecific downstream taskFour designated evaluation criteria
C-EvalChinese evaluationGeneral language task52 Exams in a Chinese context
EmotionBenchEmpathy abilitySpecific downstream taskEmotional changes
OpenLLMChatbotsGeneral language taskLeaderboard rankings
DynaBenchDynamic evaluationGeneral language taskNLI QA sentiment and hate speech
Chatbot ArenaChat assistantsGeneral language taskCrowdsourcing and Elo rating system
AlpacaEvalAutomated evaluationGeneral language taskMetrics robustness and diversity
CMMLUChinese multi-taskingSpecific downstream taskMulti-task language understanding capabilities
HELMHolistic evaluationGeneral language taskMulti-metric
API-BankTool utilizationSpecific downstream taskAPI call retrieval and planning
M3KEMulti-taskSpecific downstream taskMulti-task accuracy
MMBenchLarge vision-language modelsMulti-modal taskMultifaceted capabilities of VLMs
SEED-BenchMultimodal Large Language ModelsMulti-modal taskGenerative understanding of MLLMs
UHGEvalHallucination of Chinese LLMsSpecific downstream taskForm metric and granularity
ARBAdvanced reasoning abilitySpecific downstream taskMultidomain advanced reasoning ability
BIG-benchCapabilities and limitations of LMsGeneral language taskModel performance and calibration
MultiMedQAMedical QASpecific downstream taskAccuracy and human evaluation
CV ALUESSafety and responsibilitySpecific downstream taskAlignment ability of LLMs
LVLM-eHubLVLMsMulti-modal taskMultimodal capabilities of LVLMs
ToolBenchSoftware toolsSpecific downstream taskExecution success rate
FRESHQADynamic QASpecific downstream taskCorrectness and hallucination
CMBChinese comprehensive medicineSpecific downstream taskExpert evaluation and automatic evaluation
PandaLMInstruction tuningGeneral language taskWinrate judged by PandaLM
Dialogue CoTIn-depth dialogueSpecific downstream taskHelpfulness and acceptness of LLMs
BOSSOOD robustness in NLPGeneral language taskOOD robustness
MM-VetComplicated multi-modal tasksMulti-modal taskIntegrated vision-language capabilities
LAMMMulti-modal point cloudsMulti-modal taskTask-specific metrics
GLUE-XOOD robustness for NLP tasksGeneral language taskOOD robustness
KoLAKnowledge-oriented evaluationGeneral language taskSelf-contrast metrics
AGIEvalHuman-centered foundational modelsGeneral language taskGeneral
PromptBenchAdversarial prompt resilienceGeneral language taskAdversarial robustness
MT-BenchMulti-turn conversationGeneral language taskWinrate judged by GPT-4
M3ExamMultilingualmultimodal and multilevelSpecific downstream task Task-specific metrics
GAOKAO-BenchChinese Gaokao examinationSpecific downstream taskAccuracy and scoring rate
SafetyBenchSafetySpecific downstream taskSafety abilities of LLMs
LLMEval2LLM EvaluatorGeneral language taskAcc macro-f1 and kappa correlation coefficient

How:我们应该如何评估?

评估可以简单的划分为自动化评估和人类评估两类,他们的具体异同与需要完成的工作如下图所示。

评价指标自动化评估人类评估
AccuracyExact match, Quasi-exact match, F1 score, ROUGE score主要检查事实一致性和准确性
CalibrationsExpected calibration error, Area under the curveNone
FairnessDemographic parity difference, Equalized odds differenceNone
RobustnessAttack success rate, Performance drop rateNone
RelevanceNone字面意思
FluencyNone字面意思
TransparencyNone决策过程的透明程度,即为什么会产生这样的响应
SafetyNone检查生成文本的潜在危害性
Human alignmentNone检查人类价值观、偏好和期望的一致性程度
Number of evaluatorsNoneAdequate representation, Statistical significance
Evaluator’s expertise levelNoneRelevant domain expertise, Task familiarity, Methodological training
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/704716
推荐阅读
相关标签
  

闽ICP备14008679号