搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
Li_阴宅
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
搭建Mac Flutter开发环境
2
Zookeeper(Kafka内置)单独添加SASL认证及ACL_zk配置ssal认证
3
腾讯位置服务Flutter业务实践——地图SDK Flutter插件实现(一)_flutter 腾讯地图定位
4
【Linux】进程创建和终止 | slab分配器
5
【C++历练之路】哈希思想的应用——位图、布隆过滤器
6
【JavaScript 算法】栈与队列:解决括号匹配问题
7
渗透测试-DNS重绑定
8
彻底改变时尚:使用 GAN 实现 AI 的未来
9
2024年超详细JDK下载与安装步骤_jdk下载与安装教程(1),2024年最新面试加分的话_java的jdk下载
10
CiteSpace关键词共现图谱含义详细解析_citespace网络密度的判断标准
当前位置:
article
> 正文
Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions
作者:Li_阴宅 | 2024-07-21 13:28:00
赞
踩
Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions
1. 引言
大语言模型 (LLMs) 发展迅速,亟需可靠的评估方法。
静态数据集存在污染风险,人工评估平台耗时费力。
提出自动、可靠、可信的评估框架:Auto-Arena of LLMs (Auto-Arena)。
2. 相关工作
自动评估方法:静态数据集和基于模型的评估。
人工评估平台:Chatbot Arena,存在耗时和语言限制等问题。
3. Auto-Arena 框架
问题生成
:LLM 检验员生成多样化问题。
同行辩论
:候选 LLMs 之间进行多轮辩论,展示真实性能差距。
委员会讨论
:LLM 判委会集体讨论并确定获胜者,减少偏见。
4. 使用 Auto-Arena 获取可靠排名
实验设置
:选择 17 个 LLMs 进行实验,并与静态数据集和基于模型的评估方法进行比较。
结果
:Auto-Arena 与人类偏好具有最高相关性,证明其有效性。
消融实验
:验证同行辩论和委员会讨论对评估质量的影响。
5. 使用 Auto-Arena 构建 Leaderboard
更新新模型
:使用 Swiss 赛制和 ELO 评分系统更新排行榜。
扩展到其他领域和语言
:通过翻译提示和修改领域说明,Auto-Arena 可以轻松扩展到其他领域和语言。
6. 探究 LLM 在竞争性同行辩论中的行为
攻击对手
:LLMs 能够发现对手弱点并进行针对性攻击。
学习对手
:LLMs 能够从对手的交互中学习并改进自身。
展现性能差距
:辩论过程能够更好地展示 LLMs 之间的性能差距。
7. 结论
Auto-Arena 是一个完全自动的 LLM 评估框架,能够提供可靠、及时、可信的评估结果。
Auto-Arena 具有易于扩展和适应性强的特点,可以促进 AI 系统评估的公平性。
同行辩论揭示了 LLMs 在竞争环境中的有趣行为,为未来学习范式提供了启示。
附录
提示示例
生成的示例问题
判决者一致性分析
模型选择
基准方法比较
Auto-Arena 中的 LLM 竞争行为为我们提供了关于 LLM 训练和应用的宝贵启示:
训练方面
:
设计更具挑战性的训练数据
:LLMs 在 Auto-Arena 中的竞争行为表明,它们能够识别并利用对手的弱点。因此,我们可以设计更具挑战性的训练数据,包含更多样化的问题和场景,以训练 LLMs 更好地应对各种挑战。
引入竞争机制
:在训练过程中引入竞争机制,让 LLMs 在相互竞争中学习和改进,可以有效地提升 LLMs 的性能和鲁棒性。
强化学习和对抗训练
:利用强化学习和对抗训练等技术,可以让 LLMs 在对抗环境中学习更有效的策略和技巧,从而提升其解决问题的能力。
应用方面
:
设计更公平的评价方法
:Auto-Arena 的同行辩论机制能够更有效地展示 LLMs 之间的性能差距,这为设计更公平的 LLM 评价方法提供了启示。
利用 LLMs 的竞争行为进行学习
:我们可以利用 LLMs 的竞争行为,例如让 LLMs 从对手的交互中学习并改进自身,从而提升 LLMs 的性能和鲁棒性。
开发多 LLM 协作应用
:Auto-Arena 的委员会讨论机制表明,多个 LLMs 可以通过协作达成更一致的结论。我们可以开发基于多 LLM 协作的应用,例如让多个 LLMs 共同完成一项任务,从而提升任务的完成质量和效率。
潜在风险
:
“军备竞赛”
:LLMs 之间的竞争可能会导致“军备竞赛”,即 LLMs 不断追求更高的性能指标,而忽视了其他重要的因素,例如可解释性和安全性。
“对抗性攻击”
:LLMs 之间的竞争可能会被恶意利用,例如攻击者可以利用 LLMs 的竞争行为来攻击其他 LLMs 或系统。
总而言之,Auto-Arena 中的 LLM 竞争行为为 LLM 的训练和应用提供了新的思路和方法。我们需要谨慎地利用这些行为,并采取措施避免潜在的风险,才能更好地发挥 LLMs 的潜力
。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/Li_阴宅/article/detail/860995
推荐阅读
article
如何
训练
一个
大
语言
模型
(
LLMs
)_
大
语言
模型
训练
过程
...
在当今数字时代,
语言
模型
已经成为自然
语言
处理任务的强
大
工具,从文本生成到情感分析和机器翻译等各个方面都有涉猎。然而,
训练
...
赞
踩
article
【
LLMs
】大
语言
模型
分类
...
随着大型
语言
模型
(LLM)技术的发展,它们主要被划分为两个类别:基础LLM(Base LLM)和指令调优LLM(Base...
赞
踩
article
大模型(
LLMs
)算法
工程师
的
面试
题
_大模型开发
工程师
面试
问题(1)_
面试
题
lora
微调
vs...
这里获取](https://bbs.csdn.net/topics/618545628)**_
面试
题
lora
微调
vs...
赞
踩
article
李宏毅机器学习--
self
-
supervised
:
BERT
、
GPT
、Auto-
encoder
_自编码...
李宏毅机器学习--
self
-
supervised
--
BERT
和
GPT
_自编码器和
bert
自编码器和
bert
...
赞
踩
article
李宏毅
机器
学习
(八)自
编码器
(
Auto
-
encoder
)_
distangle
...
前情提要什么自监督
学习
?你必须想一些不需要标注资料的任务,比如做填空题,比如预测下一个任务!_
distangle
dist...
赞
踩
article
Self
-Supervised
Learning
(
ELMO
,
BERT
, GPT,
Auto
-en...
本文为李宏毅 2021 ML 课程的笔记目录The models become larger and larger …S...
赞
踩
article
Auto
-
Encoding
Scene
Graphs
for
Image
Captioning 论文...
Auto
-
Encoding
Scene
Graphs
for
Image
Captioning原文地址时间:2018年I...
赞
踩
article
探索
自动化
构建
的
新纪元
:
Auto
-
CI
项目
深度剖析与推荐...
探索
自动化
构建
的
新纪元
:
Auto
-
CI
项目
深度剖析与推荐
项目
地址:https://gitcode.com/ImpXad...
赞
踩
article
AI下一代浪潮?—
人工智能
的
大
语言
模型
(
LLMs
)
的
简介、发展以及未来趋势_海内外
llms
的
军备竞赛
...
大
型
语言
模型
(
LLMs
)是在包含巨
大
数据量
的
大
规模数据集上训练
的
。_海内外
llms
的
军备竞赛
海内外
llms
的
军备竞赛
...
赞
踩
相关标签
语言模型
人工智能
自然语言处理
LLM
深度学习
机器学习
笔记
分类
面试
算法
职场和发展
知识图谱
bert
大数据
产品经理
Langchain