赞
踩
本文列出 llm 常见的一些 BenchMarks(评测基准)数据集,总有一款适合你!有用的话欢迎关注~
Massive Multitask Language Understanding,评测 57个不同学科的通用知识。
AI2 Reasoning Challenge,测试小学科学问题的LLM,要求具备深厚的一般知识和推理能力。
General Language Understanding Evaluation,来自多个数据集的各种语言任务的集合,旨在衡量整体语言理解能力。
收集人们在谷歌上搜索的现实世界问题,与相关的维基百科页面配对以提取答案。
LAnguage Modelling Broadened to Account for Discourse Aspects,测试语言模型基于长上下文理解和预测文本的能力。
通过要求 LLM 以需要理解复杂细节的方式完成段落来测试自然语言推理。
Multi-Genre Natural Language Inference,由 433K 个句子对组成的基准,涵盖各种英语数据的流派,测试自然语言推理。
GLUE 基准的高级版本,包含更具挑战性和多样性的语言任务。
阅读理解测试,包含来自 Wikipedia 的复杂文本中的问题,要求进行情境分析。
基于 Winograd Schema Challenge 的大规模问题集,测试句子中的上下文理解情境。
主要包含物理、化学和生物学等自然科学的多项选择题。
包含 8.5K 个小学数学问题,需要基本到中级的数学运算。
Discrete Reasoning Over Paragraphs,一个对抗性创建的阅读理解基准,要求模型浏览参考文献并执行添加或排序等操作。
Counterfactual Reasoning Assessment,评估 LLM 的反事实推理能力,重点关注“假设”场景。
Large-scale ReAding Comprehension Dataset From Examinations,来自中国学生参加的英语考试的阅读理解问题集。
Big-Bench Hard,BIG Bench的一个子集,专注于需要多步骤推理的最具挑战性的任务。
一系列标准化考试,包括 GRE、GMAT、SAT、LSAT 和公务员考试等标准化测试的集合。
收集了来自谷歌搜索的15000多个真实的是/否问题,以及维基百科的文章。
专为评估聊天助手在维持多轮对话中的熟练程度而设计。
Question Answering in Context,包含14000个对话和100000个问答对,模拟学生与教师的互动。
Ambient Clinical Intelligence Benchmark,包含来自各个医疗领域的医生-病人对话和相关的临床笔记。
MAchine Reading COmprehension Dataset, 从真实网络查询中提取的自然语言问题和答案的大规模集合。
Query-based Multi-domain Meeting Summarization,针对特定查询从会议内容中提取和总结重要信息的基准。
Physical Interaction: Question Answering,通过假设性场景和解决方案测试对物理世界的知识和理解。
一个关于少数群体的恶毒和善意言论的数据集,重点关注隐含的仇恨言论。
Helpfulness, Honesty, Harmlessness,评估语言模型与有用性、诚实性和无害性等道德标准的一致性。
评估 LLM 在回答容易产生错误信念和偏见的问题时的真实性的基准。
Responsible AI,用于评估聊天优化模型在会话环境中的安全性的框架
评估LLM在代码理解和生成、代码补全和翻译等各种任务中的能力。
包含编程挑战,评估 LLM 基于指令编写功能性代码的能力。
Mostly Basic Python Programming,包括1000个适合初级程序员的 Python 编程问题。
https://github.com/leobeeson/llm_benchmarks
欢迎关注本人,我是喜欢搞事的程序猿; 一起进步,一起学习;
欢迎关注知乎/CSDN:SmallerFL
也欢迎关注我的wx公众号(精选高质量文章):一个比特定乾坤
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。