当前位置:   article > 正文

HumanEval数据集分享

humaneval数据集

来源: AINLPer公众号(每日干货分享!!)
编辑: ShuYini
校稿: ShuYini
时间: 2024-3-10

在这里插入图片描述

数据集是由OpenAI、Anthropic等开发的一个代码生成评测基准测试,它包含了164个人工编写的Python编程问题。这个数据集旨在评估大型语言模型在代码生成方面的能力,特别是在解决实际编程任务方面的表现。每个编程问题都包括函数头、docstrings(文档字符串,用于描述函数的功能)、函数体和几个单元测试。这些问题覆盖了从基础的字符串操作到复杂的算法设计等多种编程任务。

在评测过程中,模型会针对每个单元测试问题生成多个(k个)代码样本。如果有任何样本通过单元测试,则认为问题已解决,并报告问题解决的总比例,即Pass@k得分。这个指标可以帮助评估模型在生成正确代码方面的能力。

相关数据集与论文获取,GZ: AINLPer公众号 回复:HE数据集

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/811000
推荐阅读
相关标签
  

闽ICP备14008679号