赞
踩
如图显示,主要由DNN+Q-Learning组成。
Q-Learning已经显示了它的强大。由于场景复杂,状态太多,计算机运行有限。DQN就为解决这个而生。
强大的DQN输入输出有两种,第一种,输入状态和动作,输出为Q表。第二种,输入状态,输出动作。
分析第二种情况:
反向传播更新DNN。
使得DQN无比强大的两大原因:第一,Experience replay;第二,Fixed Q-targets;
二,DQN算法更新(using Tensorflow)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。