赞
踩
1.基于课程引导的后验经验回放算法
Curriculum-guided Hindsight Experience Replay
论文:
https://papers.nips.cc/paper/9425-curriculum-guided-hindsight-experience-replay
本文由腾讯AI Lab/Robotics X主导,与华盛顿大学合作完成。在存在稀疏奖励的强化学习中,后验经验回放(HER)能够通过将失败经验的实现状态视为伪目标来从失败中学习。但是并非所有失败的经历对于学习都同样有用,因此使用所有失败经验的效率不高。
因此,本文提议:1)根据与真实目标的接近程度和对各种伪目标的探索好奇心,自适应地选择失败经验;2)逐渐改变选择指标中目标临近度和多样性的比例:本文采用类似人的学习的策略,即在早期阶段提高好奇心,之后又将重心转向临近度。这种「目标和好奇心驱动的课程学习」就引出了「课程指导的后验经验回放(CHER)」。该算法可以在强化学习过程中通过对失败经验选择而实现自适应,动态地控制探索与开发的权衡。实验结果表明,在具有挑战性的机器人环境(比如机器手转球等)中,CHER可以进一步提升当前最佳表现。
CHER算法
2.LIIR:多智能体学习中实现对个体即时内在奖励值的学习
LIIR: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning.
论文:
https://papers.nips.cc/paper/8691-liir-learning-individual-intrinsic-reward-in-multi-agent-reinforcement-learning
本文由腾讯AI Lab/Robotics X主导,与伦敦大学学院和罗彻斯特大学合作完成。在协作式多智能体强化学习(MARL)的场景中,环境的奖励值通常是回馈给整个多智能体团队的,这就产生了一个难题:如何通过整体团队的奖励值对每一个不同的智能体进行差异化和多样性的鼓励。
针对这一问题,本文提出了一种元学习的方法,即对每一个智能体学习一个虚拟的内在奖励值,但同时整体的学习目标仍然是优化团队的总体奖励。每一个智能体的虚拟即时奖励值都不相同&#x
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。