赞
踩
Building a Model of the Environment
Modeling the Environment for Planning、
如果有环境模型,就可以利用环境模型进行planning,就可以更好的估计需要采取的策略以及价值函数。
Model-based RL的好处
What is a Model
Learning the Model
知道当前状态,以及当前状态采取的动作转移到下一个奖励以及状态,这样的tuple是可以直接从experience里面提取出来的。
Examples of Models
基于环境本身可以采取不同的模型。
1 Table Lookup Model(查表模型)
2 Linear Expectation Model(线性期望模型)
3 Linear Gaussian Model(线性高斯模型)
4 Gaussian Process Model(高斯过程模型)
5 Deep Belief Network Model(深度信念网络模型) …
Table Lookup Model
Example of AB
Sample-Based Planning
Sample-Based Planning for AB Example
Real and Simulated Experience
Integrating Learning and Planning(融合学习与规划)
Dyna for Integrating Learning, Planning, and Reacting
Dyna算法
Result of Dyna
Model-based Policy Optimization in RL
Model-based Policy Optimization in RL
Optimal Control for Trajectory Optimization轨迹优化
Model Learning for Trajectory Optimization: Algorithm 1
Model Learning for Trajectory Optimization: Algorithm 2
Model Learning for Trajectory Optimization: Algorithm 3
Model Learning for Trajectory Optimization: Algorithm 4
参数化模型
dynamics用什么模型去拟合?
案例1:Model-based Robotic Object Manipulation(机械臂操纵)
PILCO算法,用于廉价的机械臂操纵中。
Learning to Control a Low-Cost Manipulator using Data-Efficient
Reinforcement Learning. RSS 2011
setup是一个简单的low cost机械臂,本身是误差非常大的,control是用了一个camera,第三方的摄像头放在比较远的位置,让机械臂从initial state到target state。
control signal是一个大致的向量
大致决定了机械臂里面五个motors(发动机)的状态。
state
是从camera里面决定的,是一个物体的3D位置
Policy 需要做一个映射:
从camera得到的3D object,到达一个四维的model control的信号。
所以定义了return是直接定义了cost function
当前状态和目标状态的距离作为return,是一个比较密集的return。
PILCO算法:把Gaussian process GP作为它的环境模型,dynamic pross
PILCO: A model-based and data-efficient approach to policy search.
Deisenroth and Rasmussen. ICML 2011
Demo link: http://mlg.eng.cam.ac.uk/pilco/
案例2:Model-based Robotic Object Manipulation(机械臂操纵)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。