赞
踩
作者:禅与计算机程序设计艺术
深度强化学习(Deep Reinforcement Learning,DRL)是一种机器学习方法,它可以训练智能体(Agent)以解决任务并作出决策。其特点在于它能够直接学习到一个策略,该策略是基于环境(Environment)中的各种奖励、动作等信息而产生的,而不是依赖规则或者其他手段来指导决策。深度强化学习算法的目标是在给定一系列状态时,学习一个控制策略,使得智能体能在这个环境中最大化收益。常用的深度强化学习算法包括DQN、A3C、PPO、A2C、IMPALA等。本文将介绍DDPG算法,这是一种最著名的基于模型的深度强化学习算法。
DDPG算法是一个针对连续控制问题的Actor-Critic算法,即通过两个网络来预测行为策略和评价函数,然后结合它们的输出,决定采用什么样的动作。两个网络之间有一个专门的耦合网络,用来处理状态和动作之间的关系。DDPG算法由两个部分组成,分别是Actor和Critic。
Actor网络是状态输入,输出行为的网络。它的作用是根据输入的状态来输出行为,也就是要做出决定的行动。Actor网络的输出是一个连续分布,描述了各个行为的概率。论文中,Actor网络的结构如下图所示:
其中,网络接收输入的状态
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。