赞
踩
来源: AINLPer公众号(每日干货分享!!)
编辑: ShuYini
校稿: ShuYini
时间: 2024-3-10
该数据集是由OpenAI、Anthropic等开发的一个代码生成评测基准测试,它包含了164个人工编写的Python编程问题。这个数据集旨在评估大型语言模型在代码生成方面的能力,特别是在解决实际编程任务方面的表现。每个编程问题都包括函数头、docstrings(文档字符串,用于描述函数的功能)、函数体和几个单元测试。这些问题覆盖了从基础的字符串操作到复杂的算法设计等多种编程任务。
在评测过程中,模型会针对每个单元测试问题生成多个(k个)代码样本。如果有任何样本通过单元测试,则认为问题已解决,并报告问题解决的总比例,即Pass@k得分。这个指标可以帮助评估模型在生成正确代码方面的能力。
相关数据集与论文获取,GZ: AINLPer公众号 回复:HE数据集
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。