当前位置:   article > 正文

Can large language models explore in-context?

Can large language models explore in-context?

Can large language models explore in-context?

相关链接:arXiv
关键字Large Language ModelsExplorationReinforcement LearningDecision MakingIn-context Learning

摘要

本文研究了当代大型语言模型(LLMs)在无需训练干预的情况下,能否在上下文中进行探索,这是强化学习和决策制定中的一个核心能力。我们专注于现有LLMs的原生性能,通过在简单的多臂老虎机环境中部署LLMs作为代理,并完全在上下文中指定环境描述和交互历史。我们使用GPT-3.5、GPT-4和Llama2进行实验,发现除了一种配置外,其他配置都无法稳健地进行探索行为:GPT-4结合链式思维推理和外部总结的交互历史,呈现为充分统计信息。我们的结论是,非平凡的算法干预,如微调或数据集策划,可能需要赋予基于LLM的决策制定代理在复杂环境中更复杂的探索能力。

核心方法

image.png

研究的核心方法是通过在多臂老虎机(MAB)环境中部署LLMs作为决策代理,并在LLM提示中完全指定环境描述和交互历史。具体步骤包括:

  1. 环境描述:为LLM提供MAB问题的场景描述,包括时间范围T。
  2. 交互历史:提供与LLM的交互历史,可以是原始列表或总结的形式。
  3. 请求答案:要求LLM提供一个或多个臂(动作)的选择,可能包括链式思维(CoT)解释。
  4. 探索与利用:评估LLM在探索(尝试不同臂以收集信息)与利用(选择已知最佳臂)之间的行为。

实验说明

实验结果数据展示了不同LLM配置在多臂老虎机问题上的表现,特别是在探索行为上的成功与否。实验使用了GPT-3.5、GPT-4和Llama2模型,并考虑了不同的提示设计。实验的主要发现是,除了GPT-4的一个特定配置外,其他配置都未能展现出稳健的探索行为。以下是部分实验结果的总结表格:

模型/配置探索失败类型探索成功配置
GPT-3.5普遍
GPT-4普遍,但有例外BSSC0
Llama2普遍

结论

当前的LLMs在简单的RL环境中可能通过适当的提示工程进行探索,但在更复杂的环境中可能需要训练干预来赋予LLMs更复杂的探索能力。我们的研究结果表明,除了GPT-4的一个特定配置外,其他配置都无法稳健地进行探索。这表明在更复杂的决策制定环境中,可能需要进一步的算法设计和训练干预。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/318070
推荐阅读
相关标签
  

闽ICP备14008679号