赞
踩
总的来说这篇文章的目的是训练出一个Agent在能够完成所需要的目标前提下,它的动作更贴近真实(也就是提供的参考动作)。
整个DeepMimic所需要的input分为三部分:一个被称为Character的Agent模型;想要Agent学习的参考动作(reference motion);想要Agent完成的任务(task)所定义的reward function。训练之后会得到一个可以控制Agent同时满足与参考动作相似且可以完成任务的控制器(controller)。DeepMimic的物理环境用的是(Bullet. 2015. Bullet Physics Library. (2015). http://bulletphysics.org.)
算法部分来说既然是RL,就少不了三个重要组成部分State,Action,Reward:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。