赞
踩
一年多前,随着Stable Diffusion和ChatGPT的发布,生成式人工智能成为主流,发展速度快得令人难以置信。几乎每周都会有新的模型发布,并声称可以超越目前SOTA模型。但我们怎么知道它们是否真的好呢?在缺乏基本事实的情况下,我们如何比较和排序生成模型,即“正确”的解决方案?最后,如果LLM通过检索增强生成或RAG系统使用外部数据,我们如何判断它是否正确使用了这些数据?
在本文中,我们将探讨生成人工智能的评估方法,包括文本生成和大型语言模型。
首先让我们了解一下生成模型和判别模型之间的区别:生成模型生成新的数据样本(无论是文本、图像、音频、视频、潜在表示,还是表格数据)都与模型的训练数据相似。然而,判别模型通过训练数据学习决策边界,使我们能够解决分类、回归和其他任务。
由于生成模型的任务性质,评估生成模型本质上比判别模型更具挑战性。判别模型的性能相对简单,可以使用适合任务的指标来测量,例如分类任务的精度、回归任务的均方误差或对象检测任务的交集。
相比之下,生成模型旨在产生新的、以前看不见的内容,评估这些生成样本的质量、一致性、多样性和有用性更为复杂。例如,文本生成模型可能会生成语法正确的句子,但它可能缺乏多样性,并重复生成类似的句子。相反,它可能会产生不符合逻辑或上下文意义的不同输出。
此外,语言模型可能会生成语法和上下文都正确的文本,但对用户没有帮助(或者,在最坏的情况下,是冒犯性的或有害的),这样的模型不应该被认为是高质量的。
最后,检索增强生成或RAG系统可能会生成结构良好的内容,这些内容听起来合理,对用户有帮助,但不是基于模型应该检索的外部数据。因此,用户可能会收到幻觉般的答案,而不是基于数据的答案。
那么我们该如何评估大型语言模型呢?大多数方法可分为以下四种:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。