当前位置:   article > 正文

自动扫雷机器学习_NeurIPS论文解读|强化学习与自动机器学习(文末赠书)

curriculum-guided hindsight experience replay
强化学习是近年来大放异彩的机器学习技术之一,基于这种技术开发的人工智能模型已经在围棋、扑克、视频游戏和机器人等领域取得了非常多的里程碑式的进步。 腾讯 AI Lab的 NeurIPS 2019 入选论文中有三篇与强化学习有关,这三篇论文针对不同方向的任务分别提出了两种不同的新的算法以及一种新的多智能体学习策略。

1.基于课程引导的后验经验回放算法

Curriculum-guided Hindsight Experience Replay

论文:

https://papers.nips.cc/paper/9425-curriculum-guided-hindsight-experience-replay

本文由腾讯AI Lab/Robotics X主导,与华盛顿大学合作完成。在存在稀疏奖励的强化学习中,后验经验回放(HER)能够通过将失败经验的实现状态视为伪目标来从失败中学习。但是并非所有失败的经历对于学习都同样有用,因此使用所有失败经验的效率不高。

因此,本文提议:1)根据与真实目标的接近程度和对各种伪目标的探索好奇心,自适应地选择失败经验;2)逐渐改变选择指标中目标临近度和多样性的比例:本文采用类似人的学习的策略,即在早期阶段提高好奇心,之后又将重心转向临近度。这种「目标和好奇心驱动的课程学习」就引出了「课程指导的后验经验回放(CHER)」。该算法可以在强化学习过程中通过对失败经验选择而实现自适应,动态地控制探索与开发的权衡。实验结果表明,在具有挑战性的机器人环境(比如机器手转球等)中,CHER可以进一步提升当前最佳表现。

b7890f9f50d44300df3a297f3ef31007.png

CHER算法

2.LIIR:多智能体学习中实现对个体即时内在奖励值的学习

LIIR: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning.

论文:

https://papers.nips.cc/paper/8691-liir-learning-individual-intrinsic-reward-in-multi-agent-reinforcement-learning

本文由腾讯AI Lab/Robotics X主导,与伦敦大学学院和罗彻斯特大学合作完成。在协作式多智能体强化学习(MARL)的场景中,环境的奖励值通常是回馈给整个多智能体团队的,这就产生了一个难题:如何通过整体团队的奖励值对每一个不同的智能体进行差异化和多样性的鼓励。

针对这一问题,本文提出了一种元学习的方法,即对每一个智能体学习一个虚拟的内在奖励值,但同时整体的学习目标仍然是优化团队的总体奖励。每一个智能体的虚拟即时奖励值都不相同&#x

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/468850
推荐阅读
相关标签
  

闽ICP备14008679号