当前位置:   article > 正文

【论文调研】大语言模型和强化学习结合:LLM+RL_language as an abstraction for hierarchical deep r

language as an abstraction for hierarchical deep reinforcement learning

论文题目:Grounded Reinforcement Learning: Learning to Win the Game under Human Commands
image.png
目标:解决让智能体既可以完成任务又可以严格遵守人类高级指令。
image.png
RL学习过程中,加入智能体策略分布不能偏离人类演示集的分布。对于(1)式中的约束,本文采用负对然似数。
image.png
借鉴自我模仿和自我蒸馏,将(2)式中的RL loss与BC loss解耦,得到下面更新方式(先RL策略更新,后BC人类演示蒸馏):
image.png


论文题目:Pre-Trained Language Models for Interactive Decision-Making
image.png
目标:将目标、历史和观察转换为序列的顺序决策的通用方法,并使用使用预训练的 LM 初始化的策略对其进行处理。


论文题目:Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning
image.png
image.png
目标:用来解决llm的知识与环境之间的对齐可能


论文题目:ELLA: Exploration through Learned Language Abstraction
image.png
目标:旨在通过将高级指令与更简单的低级成分相关联来提高稀疏奖励环境中的样本效率。
1)一个终止分类器,用于识别代理何时完成低级指令,以及 2)一个相关分类器,它将低级指令与高级任务的成功相关联。


论文题目:Guiding Pretraining in Reinforcement Learning with Large Language Models
image.png
目标:ELLM通过利用大语言模型预训练,根据当前状态动作以及下一个状态与子目标的余弦相似度作为奖励,引导代理走向具有人类意义和看似有用的行为,而无需循环中的人类。
image.png
image.png


论文题目:Hierarchical Decision Making by Generating and Following Natural Language Instructions
image.png
目标:用大模型作为分层强化学习中的目标分配者,使用人类专家数据进行模仿学习。
执行者训练:负对数似然:继续采取上一帧动作+智能体i 执行正确动作 a u i a_{ui} aui 的可能性
image.png
指令者训练:负对数似然:继续使用之前的指令+N条指令池中选对某一指令的loss

image.png


论文题目:Language as an Abstraction for Hierarchical Deep Reinforcement Learning
image.png
目标:同上HRL

论问题目:Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals
image.png
目标:利用人工编写的指令手册为特定任务的学习策略提供辅助奖励。
系统接收环境中的当前帧,并将指令手册作为输入。在对象检测和接地之后,QA 提取模块模块生成一个针对游戏特征和目标的摘要,以消除干扰并简化推理的问题,从手册中提取和总结相关信息,推理模块通过对 QA 提取模块的输出进行推理,为规则检测到的游戏内检测框之间发生碰撞事件分配辅助奖励。然后将“是/否”答案映射到代理的 +5/ - 5 个辅助奖励。


论文题目:Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games
image.png
目标:提出了一种堆叠的分层注意机制,通过利用知识图的结构来构建推理过程的显式表示,再将上述 v t v_t vt作为策略网络的输入。
image.png
image.png
image.png
image.png
image.png


论文题目:Grounding Language to Entities and Dynamics for Generalization in Reinforcement Learning
image.png
目标:使用软注意力机制对游戏的自然语言手册进行特征提取,获得的各自令牌嵌入中生成键和值向量,使得代理必须学会将实体映射到自然语言手册中的相应引用。PPO完成训练。


论文题目:Improving Intrinsic Exploration with Language Abstractions
image.png
目标:通过将之前的AMIGo和NovelD引入语言模型加入目标,根据一定时间内是否完成目标则进行内部奖励。


论文题目:EAGER: Asking and Answering Questions for Automatic Reward Shaping in Language-guided RL
image.png
目标:在训练期间,代理使用目标使用其问题生成模块 QG(自动但不学习 ) 生成相关问题。然后,它试图通过查看轨迹,在每一步使用其问答模块 QA从当前轨迹中回答它们。当成功时,它获得与其对其答案的信心成比例的内在奖励。然后它从问题列表中删除回答的问题。这激励代理产生轨迹,从而能够明确地重建有关通用语言目标的部分信息,从而实现形状奖励和指导学习,构建自动奖励塑造的方法。


论文题目:Asking for Knowledge : Training RL Agents to Query External Knowledge Using Language
image.png
目标:使用生成语言命令以查询有助于解决任务的有意义的知识。


论文题目:REWARD DESIGN WITH LANGUAGE MODELS
image.png
目标:从任务描述、用户输入期望目标、智能体最后状态和动作、是否满足用户目标对RL代理进行对齐工作。即:通过连接任务的描述、用户指定的示例/描述、情节的结果以及询问结果是否满足目标的问题来构建提示 ρ。


论文题目:Think Before You Act: Unified Policy for Interleaving Language Reasoning with Actions
image.png目标:将语言推理与单个策略中的动作统一起来


论文题目:Using Natural Language for Reward Shaping in Reinforcement Learning
image.png
目标:使用自然语言指令来执行奖励塑造来解决奖励函数难设计问题。
image.png

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/318072
推荐阅读
相关标签
  

闽ICP备14008679号