当前位置:   article > 正文

当深度强化学习(DRL)遇见图神经网络(GNN)_gnn+drl

gnn+drl

       本篇文章是博主在人工智能等领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对人工智能等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在学习摘录和笔记专栏

       学习摘录和笔记(23)---当深度强化学习(DRL)遇见图神经网络(GNN)》

当深度强化学习(DRL)遇见图神经网络(GNN)

原文/论文出处:

  • 题目:《当深度强化学习遇见图神经网络
  • 时间:2019-10-21
  • 来源:专知

1 图神经网络(GNN)     

        将图神经网络(GNN)与深度强化学习(DRL)相结合。新的DRL+GNN体系结构能够在任意网络拓扑图上学习、操作和生成。

        图神经网络(Graph Neural Networks,GNN)是一种新型的神经网络,用于对图结构信息进行操作。它们的基本形式是将一些初始状态与图中的不同元素相关联,然后结合这些元素在图中的相互关系。迭代算法更新状态元素并使用最终状态产生输出.


2 深度强化学习(DRL)

        深度强化学习(Deep Reinforcement Learning, DRL)的最新进展在决策问题上显示出了重要的改进。网络社区已经开始研究DRL如何为相关的优化问题(如路由routing)提供新的解决方案。然而,大多数最先进的基于DRL的网络技术无法生成(generalize),这意味着它们只能在训练期间看到的网络拓扑图上运行,而不能在新的拓扑图上运行。这一重要限制背后的原因是,现有的DRL网络解决方案使用标准的神经网络(例如全连接),无法学习图形结构的信息。

        DRL算法的目标是学习一种策略使优化问题的累积报酬最大化。

        该学习过程由一组动作A和一组状态S组成。给定一个状态s∈S,Agent将执行一个a∈A的动作,该动作产生一个新的状态s∈S的转换,并提供一个奖励r,这个优化问题可以被建模为一个马尔可夫决策过程(MDP)。然而,对于MDP的解决方案,需要评估状态-动作对的所有可能组合。


3 DRL训练伪代码      

        提出了DRL+GNN智能体,智能体实现了DQN算法,其中Q值函数是用GNN建模的。伪代码如下:

  1. //Algorithm 1 DRL Agent Training algorithm
  2. for it in Iterations do
  3. for episode in Training_eps do
  4. s, d,src,dst <– env.reset_env()
  5. reward – 0
  6. while TRUE do
  7. a, s' <– agt.act(s, d, src, dst)
  8. r, done, d', src', dst' <– env.step(s')
  9. agt.rmb(s,d,src,dst, a,r,s',d',src',dst')
  10. reward <– reward + r
  11. If done == TRUE : break
  12. If len(agt.mem) > batch_size : agt.replay()
  13. d <- d',s <- s', dst <- dst'
  14. for episode in Evaluation_eps do
  15. s, d, src,dst <– env.reset_env()
  16. reward – 0
  17. while TRUE do
  18. a, s' <– agt.act(s, d, src, dst)
  19. r, done,d',src', dst' – env.step(s')
  20. reward – reward + r
  21. If done then break

 4 结论与展望

        提出了一种基于GNNs的DRL体系结构,能够推广到不可见的网络拓扑。使用GNNs对网络环境建模,允许DRL智能体在不同网络中操作,而不是只在用于训练的网络中。

        缺乏泛化是阻碍在生产网络中部署现有的基于DRL的解决方案的主要障碍。因此,所提出的体系结构是开发新一代基于DRL的网络产品的第一步。


     文章若有不当和不正确之处,还望理解与指出。由于部分文字、图片等来源于互联网,无法核实真实出处,如涉及相关争议,请联系博主删除。如有错误、疑问和侵权,欢迎评论留言联系作者,或者关注VX公众号:Rain21321,联系作者。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/444657
推荐阅读
相关标签
  

闽ICP备14008679号