赞
踩
强化学习在不同的学科中其实都具有不同的存在形式
奖励
奖励假设:所有问题的目标都可以被描述成最大化期望的累积奖励
序列决策
有些问题,不一定“步步优”,结果就是最优的
智能体
智能体与环境
智能体不是独立存在的,它需要与环境相互作用
智能体结合了当前时间步长的奖励与观测信息后,完成了动作的执行,动作又会对下一个时间步长的环境产生影响,进而环境会给智能体新的观测信息与奖励。
历史与状态
环境状态
智能体状态
信息状态(Information State)
信息状态,也叫马尔科夫状态(Markov State),包含了历史上所有有用的信息
如果给定当前时刻的状态,将来与历史无关:
状态定义 状态定义是强化学习中极为关键的概念
强化学习智能体由下述三个组件中的一个或多个组成:
分类基准:
Or
Else
序列决策中的两个基础问题
强化学习是一种试错的学习过程,更强调与环境的交互,而规划问题更多则往往已知了环境的模型,不需要与环境进行交互
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。