当前位置: article > 正文

更难、更好、更快、更强：LLM Leaderboard v2 现已发布

作者：煮酒与君饮 | 2024-07-26 06:27:07

踩

评估和比较大语言模型 (LLMs) 是一项艰巨的任务。我们 RLHF 团队在一年前就意识到了这一点，当时他们试图复现和比较多个已发布模型的结果。这几乎是不可能完成的任务：论文或营销发布中的得分缺乏可复现的代码，有时令人怀疑，大多数情况下只是通过优化的提示或评估设置来尽量提升模型表现。因此，他们决定创建一个地方，在完全相同的设置 (同样的问题，按相同的顺序提问等) 下评估参考模型，从而收集完全可复现和可比较的结果；Open LLM Leaderboard 就这样的背景下发布啦！

在一系列高调的模型发布后，它成为了机器学习社区及更广泛领域内的广泛资源，过去 10 个月中有超过 200 万的独立访问者。

每月约有 30 万社区成员通过提交和讨论使用这个平台，通常是为了：

寻找最先进的开源发布，因为排行榜提供了可复现的得分，区分了营销炒作与实际进展。
评估他们的工作，无论是预训练还是微调，公开比较方法并与最佳现有模型进行比较，并获得公众认可。

然而，随着排行榜的成功以及模型性能的不断提升，也带来了挑战。经过一年多的激烈使用和大量社区反馈后，我们认为是时候进行升级了！因此，我们推出了 Open LLM Leaderboard v2！

https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

（还是之前的链接）

以下是我们认为需要新排行榜的原因

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/煮酒与君饮/article/detail/883925