LLM评估（一）| 大模型评估的四种方法_大模型评估的基线

作者：你好赵伟 | 2024-03-16 02:19:03

踩

大模型评估的基线

一年多前，随着Stable Diffusion和ChatGPT的发布，生成式人工智能成为主流，发展速度快得令人难以置信。几乎每周都会有新的模型发布，并声称可以超越目前SOTA模型。但我们怎么知道它们是否真的好呢？在缺乏基本事实的情况下，我们如何比较和排序生成模型，即“正确”的解决方案？最后，如果LLM通过检索增强生成或RAG系统使用外部数据，我们如何判断它是否正确使用了这些数据？

在本文中，我们将探讨生成人工智能的评估方法，包括文本生成和大型语言模型。

一、评估生成的内容

首先让我们了解一下生成模型和判别模型之间的区别：生成模型生成新的数据样本（无论是文本、图像、音频、视频、潜在表示，还是表格数据）都与模型的训练数据相似。然而，判别模型通过训练数据学习决策边界，使我们能够解决分类、回归和其他任务。

二、GenAI评估挑战

由于生成模型的任务性质，评估生成模型本质上比判别模型更具挑战性。判别模型的性能相对简单，可以使用适合任务的指标来测量，例如分类任务的精度、回归任务的均方误差或对象检测任务的交集。

相比之下，生成模型旨在产生新的、以前看不见的内容，评估这些生成样本的质量、一致性、多样性和有用性更为复杂。例如，文本生成模型可能会生成语法正确的句子，但它可能缺乏多样性，并重复生成类似的句子。相反，它可能会产生不符合逻辑或上下文意义的不同输出。

此外，语言模型可能会生成语法和上下文都正确的文本，但对用户没有帮助（或者，在最坏的情况下，是冒犯性的或有害的），这样的模型不应该被认为是高质量的。

最后，检索增强生成或RAG系统可能会生成结构良好的内容，这些内容听起来合理，对用户有帮助，但不是基于模型应该检索的外部数据。因此，用户可能会收到幻觉般的答案，而不是基于数据的答案。

三、LLM评估方法

那么我们该如何评估大型语言模型呢？大多数方法可分为以下四种：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/246313