赞
踩
相关链接:arXiv
关键字:Large Language Models、Exploration、Reinforcement Learning、Decision Making、In-context Learning
本文研究了当代大型语言模型(LLMs)在无需训练干预的情况下,能否在上下文中进行探索,这是强化学习和决策制定中的一个核心能力。我们专注于现有LLMs的原生性能,通过在简单的多臂老虎机环境中部署LLMs作为代理,并完全在上下文中指定环境描述和交互历史。我们使用GPT-3.5、GPT-4和Llama2进行实验,发现除了一种配置外,其他配置都无法稳健地进行探索行为:GPT-4结合链式思维推理和外部总结的交互历史,呈现为充分统计信息。我们的结论是,非平凡的算法干预,如微调或数据集策划,可能需要赋予基于LLM的决策制定代理在复杂环境中更复杂的探索能力。
研究的核心方法是通过在多臂老虎机(MAB)环境中部署LLMs作为决策代理,并在LLM提示中完全指定环境描述和交互历史。具体步骤包括:
实验结果数据展示了不同LLM配置在多臂老虎机问题上的表现,特别是在探索行为上的成功与否。实验使用了GPT-3.5、GPT-4和Llama2模型,并考虑了不同的提示设计。实验的主要发现是,除了GPT-4的一个特定配置外,其他配置都未能展现出稳健的探索行为。以下是部分实验结果的总结表格:
模型/配置 | 探索失败类型 | 探索成功配置 |
---|---|---|
GPT-3.5 | 普遍 | 无 |
GPT-4 | 普遍,但有例外 | BSSC0 |
Llama2 | 普遍 | 无 |
当前的LLMs在简单的RL环境中可能通过适当的提示工程进行探索,但在更复杂的环境中可能需要训练干预来赋予LLMs更复杂的探索能力。我们的研究结果表明,除了GPT-4的一个特定配置外,其他配置都无法稳健地进行探索。这表明在更复杂的决策制定环境中,可能需要进一步的算法设计和训练干预。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。