赞
踩
本文原文可查阅文献:
本文针对对象为柔性车间,提出了一种基于混合规则的自适应深度强化学习(DRL) AGV实时调度方法,以最小化完工时间和延迟率为目标。
主要考虑任务状态和AGV状态,如下:
(1)任务数量,表示当前需要运输的任务总数。
(2)当前任务的平均剩余时间:
(3)当前任务的平均运行距离
(4)备选AGV的工作状态,用二进制数表示,空闲为0,不空闲为1.
(5)AGV的行驶速度。
设计奖励函数是为了评估行动和优化政策。本研究旨在降低agv实时调度的完工时间和延迟率。为了在同一维度上评价这两个指标,引入时间成本和延迟成本的概念如下:
:表示AGV i操作任务k的延迟成本;:AGV i 的总延迟成本;:整个调度的总延迟成本
:任务k的运输时间;:AGV i的总延迟时间
:AGV i执行任务k的时间成本;:总调度时间成本;T:makespan
随着上述成本的降低,调度绩效将得到改善。因此,根据延迟成本和时间成本定义奖励函数如下:
:用于评估单个任务的行动的当前奖励;
:用于评估调度的整体性能的最终奖励;
:单个任务的平均延迟成本和平均时间成本
/:整个调度的平均延迟成本和平均时间成本
算法框架:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。