赞
踩
Reinforcement Learning 已经经过了几十年的发展,发展壮大。近些年来,跟随着机器学习的浪潮开始发展壮大。多次战胜围棋冠军柯洁,以及在DOTA2、星际争霸等游戏中超凡表现,成为了众人追捧的明星。目前OPENAI作为世界NO.1的AI研究机构,构建的GYM,成为衡量强化学习算法的标准工具。通过OPENAI 的GYM直接构建自己的环境,从而利用目前现有的算法,直接求解模型。
包含大量自我理解,肯定存在不正确的地方,希望大家指正
RL 考虑的是agent如何在一个环境中采取行动,以最大化一些累积奖励。
其中主要包含的是2个交互:
具体的安装 和 介绍 主页很详细。
GYM主页 以及 DOC
GYM
GYM——DOC
安装好GYM之后,可以在annaconda 的 env 下的 环境名称 文件夹下 python sitpackage 下。
在调用GYM的环境的时候可以利用:
'import gym'
'env = gym.make('CartPole-v1')'
GYM的文件夹下 主要包含:
gym\envs\classic_control\cartpole.py
所有构建的环境都需要调用GYM库,然后再通过GYM库来调用所写的环境。所以需要现在GYM的内部构件一个内链接,指向自己构建的环境。
registry 主要在
envs下 _init_ 文件下
`register(`
`id='CartPole-v1',`
`entry_point='gym.envs.classic_control:CartPoleEnv',`
`max_episode_steps=500,`
`reward_threshold=475.0,`
`)`
id 调用所构建的环境的名称 调用该环境的时候 所起的名字
注:名字包含一些特殊符号的时候,会报错
entry_point 所在的位置
例如上述: 存在gym 文件夹下 classic_control文件夹下
算法所需的参数
2 在所在文件夹下
建立 _init_ 文件,在下面调用
from gym.envs.classic_control.cartpole import CartPoleEnv
其中是cartpole是环境所存在的文件名字,CartPoleEnv是该文件下的类。
自我构建的环境为一个类。主要包含:变量、函数
这个类包含如下两个变量值:state 和 action
对应的两个空间为observation _space 和 action _space
这两个空间必须要用 space 文件夹下的类在__init__中进行定义。
其中 state是一个 object 一般为一个np.array 包含多个状态指示值。
step 利用动作 环境给出的一下步动作 和 环境给出的奖励(核心)
这个函数 承担了最重要的功能,是所构建环境所实现功能的位置
输入为 动作 输出为
reset 重置环境
将状态设置为初始状态,返回: 状态值
render 在图形界面上作出反应
可以没有,但是必须存在
close 关闭图形界面
seed 随机种子
可以没有,但是必须存在
主要分为离散空间和连续空间:
连续空间主要由spaces.Box定义,例如:
self.action_space = spaces.Box(low=-10, high=10, shape=(1,2))
上面定义了一个取值范围在(-10,10)的变量 维度为1,2
离散空间主要有
spaces.Discrete,例如
self.observation_space = spaces.Discrete(2)
上面定义了一个变量空间范围为[0,2) 之间的整数
spaces.MultiBinary, 例如
self.observation_space = spaces.MultiBinary(2)
上面定义了一个变量空间为0,1的2维整数变量
spaces.MultiBinary, 例如
self.observation_space = MultiDiscrete()
其他还可以定义一个元组或者字典 等变量空间。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。