赞
踩
车道保持是实现车道保持的基本任务,对车辆车道保持进行研究具有一定的学术意义和工程价值。 当前的车道保持算法都是基于两段法实现,a 对车道线进行识别,b 通过控制算法计算获得车辆的控制量,且该方法比较死板,算法没有足够的自学性能。
深度学习拥有强大的拟合性能,强化学习则是让智能体在环境中进行试错尝试,根据环境给予的反馈来学习自己的策略,深度强化学习同时拥有强大的拟合性能和自学性能。
在强化学习中,智能体(Agent)与环境不断进行交互(在本文的车道保持自学习算法中,智能体即被训练的智能体车辆)。Agent 了解外部环境的状态和反馈的回报,并进行学习和决策。 Agent 的决策功能即是根据外部环境的状态采取不同的行动。Agent 的学习功能是在与环境不断交互的过程中,根据外部环境的反馈调整相应的策略。环境是agent 之外的一切,它在 agent 执行相应动作的后得到下一状态并反馈给 agent 对应的奖励。即智能体(agent)可以通过外界的环境状态(state)和反馈的(reward)来进行学习和决策。
- 输入:MDP五元祖:声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/91338推荐阅读
相关标签
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。