赞
踩
源码:https://github.com/devsisters/DQN-tensorflow
使用 TensorFlow, 你必须明白 TensorFlow:
会话 (Session)
的上下文 (context) 中执行图.变量 (Variable)
维护状态.在构建图时是不会发生实际运算的。而在模型构建完毕以后,会进入训练步骤。此时才会有实际的数据输入,梯度计算等操作。那么,如何构建抽象的模型呢?这里就要提到tensorflow中的几个概念:Tensor,Variable,placeholder,而在训练阶段,则需要介绍Session。
agent.py 的init函数:
with tf.variable_scope('step'): self.step_op = tf.Variable(0, trainable=False, name='step') self.step_input = tf.placeholder('int32', None, name='step_input') self.step_assign_op = self.step_op.assign(self.step_input) self.build_dqn()
气死了,好不容易写好的这一段的资料不知怎么提交后被csdn给抹杀了,再也找不到了,很郁闷,就简写了。
with tf.variable_scope Returns a context manager for defining ops(操作) that creates variables (layers). 相当于一个定义全局变量的地方。
tf.Variable 创建变量,使用tensorflow在默认的图中创建节点,这个节点是一个变量。
placeholder 由于input的数据是会变化的,因此用tf.placeholder来存放这块空间
assign 是对变量的赋值操作,只不过这里并没有真正的赋值,只有在执行了run(operation.run or session.run)之后才实现。
初始化到这里 基本结束了,就进入到重点的生成dqn网络的方法了。
initializer = tf.truncated_normal_initializer(0, 0.02)
#生成一个正态分布的初始化器 两个参数的含义
#mean:一个Python标量或标量张量。生成的随机值的平均值。
#stddev:Python标量或标量张量。产生随机值的标准偏差。
activation_fn = tf.nn.relu
# relu是激励函数的一种 ReLU(Rectified Linear unit)激活函数最近变成了神经网络中隐藏层的默认激活函数。
这个简单的函数包含了返回max(0,x),所以对于负值,它会返回0,其它返回x。
# training network
with tf.variable_scope('prediction'):
if self.cnn_format == 'NHWC':
self.s_t = tf.placeholder('float32',
[None, self.screen_width, self.screen_height, self.history_length], name='s_t')
else:
self.s_t = tf.placeholder('float32',
[None, self.history_length, self.screen_width, self.screen_height], name='s_t')
终于开始训练了,这块的全局变量名字叫“预测”
cnn_format = 'NHWC' 是配置好的,指定了卷积神经网络的一种输入输出格式。跟‘NHWC’只是在输入参数的顺序上有所不同(从下面的判断中也可以看出来。基本上就是把需要运算的一些大小参数输入进去。)
找资料时发现一个不错的博文,http://www.cnblogs.com/hellocwh/p/5564568.html 介绍了tensorflow实现卷积神经网络算法以及一些原理。
未完待续
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。