赞
踩
AWS DeepRacer 是一项 AWS Machine Learning 服务,用于探索专注于自主赛车的强化学习。AWS DeepRacer 服务支持以下功能:
克隆训练有素的模型,继续训练以提高性能。(这个非常重要,后面实战将会用到)
“AWS DeepRacer” 可以指三种不同的工具:
强化学习是一种机器学习方法,专注于由代理执行自主决策,以通过与环境的交互实现指定的目标。在强化学习中,学习是通过反复的试验和错误来实现的,训练不需要带标签的输入。培训依赖于奖励假设,这是假设所有目标都可以通过最大化行动序列后的未来奖励来实现。在强化学习中,设计奖励函数非常重要。精心设计的奖励函数更好地决定执行哪些操作来达到目标,从代理那里做出更好的决策。
(在AWS Deepracer 比赛中,最重要的就是设计奖励函数。)
对于自动驾驶赛车,代理是一个车辆。环境包括行驶路线和交通状况。目标是使车辆快速到达目的地而不发生事故。使用积分来奖励安全快速地行驶至目的地的行为。对于危险和破坏性的驾驶通过扣分进行惩罚。
要在训练期间鼓励学习,必须允许学习代理有时执行可能不会带来奖励的操作。这称作勘探和开发权衡。它有助于减小或消除代理可能误入虚假目的地的可能性。
(减小约束,这对于小车自主学习非常重要,约束太多会导致小车评估曲线无法收敛,这一点后面实战将会详细讲解)
强化学习模型是一种环境,在这种环境中,代理可以建立以下三点:
代理用来确定其操作的策略称为策略。策略采用环境状态作为输入并输出要执行的操作。在强化学习中,策略通常由深度神经网络表示。我们称之为强化学习模型。每个训练作业均会生成一个模型。即使提前停止训练作业,也可以生成模型。模型是不可变的,这意味着它在创建后不能被修改和覆盖。
AWS DeepRacer 模拟器是一个基于 AWS RoboMaker 构建的虚拟环境,用于显示培训和评估 AWS DeepRacer 模型。大多是情况下我们都是在虚拟环境上对模拟器进行操作。
排行榜是 AWS DeepRacer 在 AWS DeepRacer 赛车活动中的性能排名列表。比赛可以是在模拟环境中举行的虚拟活动,或者是在真实环境中举行的物理活动。性能指标取决于竞赛类型。它可以是 AWS DeepRacer 用户提交的最快单圈时间、总时间或平均单圈时间,这些用户在与给定比赛跑道相同或相似的赛道上评估其训练后的模型。
如果一辆车连续完成三圈,则它有资格在排行榜上排名。最先完成的连续三圈的平均单圈时间将提交到排行榜。
机器学习框架是用于构建机器学习算法的软件库。AWS DeepRacer 支持的框架包括 Tensorflow
策略网络是指训练后的神经网络。策略网络采用视频图像作为输入并预测代理的下一个操作。根据此算法,它还可以评估代理的当前状态的值。
优化算法是用于训练模型的算法。对于监管训练,使用特殊策略更新权重来最小化损失函数,从而对算法进行优化。对于强化学习,该算法使用特殊奖励函数来最大化预期未来奖励,从而实现优化。
神经网络(也称作人工神经网络)是连接单元或节点的集合,这些单元或节点用于构建基于生物系统的信息模型。每个节点都称为人工神经元并模仿生物神经元,因为它接收输入(刺激),如果输入信号足够强(激活)则转为活动状态,并生成根据输入和激活预测的输出。它广泛应用于机器学习,因为人工神经网络可以作为任何函数的通用近似。要学习的教学机器成为找到给定输入和输出的最佳函数近似值。在深度强化学习中,神经网络代表策略,通常被称为策略网络。对策略网络进行培训等于循序渐进,这些步骤涉及基于当前政策产生经验,然后利用新产生的经验优化政策网络。该过程将继续进行,直到某些性能指标满足要求的标准
超参数是控制神经网络训练性能的算法变量。一个示例超级参数是学习速率,用于控制在学习的每一部中纳入多少新经验。更高的学习速率可以实现更快的训练,但是可能会使得训练后的模型质量偏低。超级参数是经验性的,需要针对每次训练进行系统化调整。
轨道是 AWS DeepRacer 车辆驱动的路径或路径。轨道可以存在于模拟环境中,也可以存在于真实世界的物理环境中。您可以使用模拟环境在虚拟赛道上训练 AWS DeepRacer 模型。AWS DeepRacer 控制台使虚拟轨道可用。您可以使用真实环境在物理轨道上运行 AWS DeepRacer 车辆。AWS DeepRacer 联盟为活动参与者提供了实际轨迹,以便参与者进行竞争。如果您希望在任何其他条件下驾驶 AWS DeepRacer 车辆,就必须创建自己的物理轨道。
奖励函数是学习模型中的一种算法,它告诉代理执行的操作是否导致:
奖励函数是强化学习的关键部分。它通过激励特定操作而不是其他操作来确定代理学习的行为。用户通过使用 Python 提供奖励功能。该奖励函数由优化算法使用,用于训练强化学习模型。
经验情节是代理在这段时间中,通过从指定起点开始行驶完成赛道或者偏离赛道,从环境收集经验作为训练数据。
不同的情节可以有不同的长度。这也称作情节或者体验生成情节。
体验迭代(也称为体验生成迭代) 是各个策略迭代(执行对策略网络权重的更新)之间的一组连续经验。每次经验迭代结束时,收集的情节将添加到经验重放或缓冲中。可以在训练的超级参数之一中设置大小。神经网络通过使用经验的随机样本进行更新。
策略迭代(也称为策略更新迭代)是在梯度上升期间,遍历随机采样的训练数据,以更新策略神经网络权重。一次遍历训练数据以更新权重的过程称为纪元。
训练作业是一种工作负载,可训练强化学习模型并创建要对其运行推理的训练后的模型构件。每个训练作业有两个子过程:
每个训练作业会生成一个训练模型,并将模型构件输出到指定的数据存储。
评估作业是一种工作负载,可以测试模型的性能。在训练作业完成后按指定目标测量性能。标准 AWS DeePracer 性能指标是:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。