赞
踩
分类目录:《深入理解强化学习》总目录
相关文章:
· 强化学习的历史:最优控制
· 强化学习的历史:试错学习
· 强化学习的历史:试错学习的发展
· 强化学习的历史:K臂赌博机、统计学习理论和自适应系统
· 强化学习的历史:时序差分学习
对于自动学习机的研究对试错学习发展到现代强化学习有着更直接的影响。这类方法用于解决非关联的、纯选择性的学习问题,又被称为K臂赌博机算法,即有K个控制杆的“单臂赌博机"算法。自动学习机是一种能够在这类问题中提高获得收益的概率的简单且无需大内存的机器。它源于20世纪60年代俄罗斯数学家、物理学家M.L.Tsetlin以及他的同事们的工作。之后,这种方法在工程上得到广泛拓展。这些拓展包括对随机自动学习机的研究。尽管没有在传统的随机自动学习机中发展起来,Harth和Tzanakou的Alopex算法是一个检测动作之间的相关性的随机方法,其影响了我们早期的一些研究。随机自动学习机是一种基于收益信号来更新动作概率的方法。随机自动学习机在早期心理学研究中就被预言,相关的研究始于William Estes在1950年关于统计学习理论的研究,并被其他研究者推广,其中最著名的是心理学家Robert Bush和统计学家Frederick Mosteller。
在心理学中产生的统计学习理论被经济学领域的研究者所采纳,并在经济学领域引发了一股强化学习的研究热潮。这些工作始于1973年Bush和Mosteller的学习理论在一系列经典经济模型中的应用。这项研究的目的在于探索比起传统的理想经济主体,行为更像真人的人工智能体。该项研究又扩展到对博弈论语境中的强化学习的研究。尽管经济学领域中的强化学习的发展基本上与人工智能的早期研究是相互独立的,但强化学习与博弈论的结合却是两个领域的共同研究兴趣。Camerer讨论了经济学中的强化学习传统,而Nowéet提供了一份从多智能体角度扩展《深入理解强化学习》系列文章中所讨论算法的综述。强化学习和博弈论的结合是一个和应用于井字棋、跳棋和其他娱乐游戏的强化学习有很大不同的主题。可参考Szita对关于强化学习与博弈论的结合的综述。
JohnHolland基于选择原理提出了一个自适应系统的一般理论。他的早期工作主要关注试错方法的非关联形式,主要涉及进化方法和臂赌博机。他在1976年提出并在1986年完善了分类器系统,包含关联和价值函数的真正的强化学习系统。Holland的分类器系统的一个关键部分是用于功劳分配的“救火队算法",它与时序差分算法有很深的关联。另一个关键部分是遗传算法,一种用来演化出有效表示方式的进化算法。虽然许多研究者把分类器系统发展成为了一个强化学习的主要分支,但其实遗传算法和其他的进化计算方法得到了更多的关注。
在人工智能领域的强化学习中的试错方法的复兴中,最关键的人是Harry Klopf。Klopf意识到当研究者们仅仅关注有监督学习时,他们丢失了适应性行为的关键部分。根据Klopf的说法,丢失的是行为享乐的特点,即从环境中获得成就感,控制环境使其趋向于理想的结局而远离不理想的结局。这是试错学习不可缺少的思想。Klopf的想法影响尤为深刻,我们因为研究其思想,才重视有监督学习和强化学习的区别。我和我的同事早期完成的许多工作都是出于希望展示强化学习和有监督学习本质不同的目的。其他研究也展示了强化学习如何解决神经网络学习中的重要问题,特别是如何产生多层网络的学习算法。
参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。