当前位置:   article > 正文

DQN学习使用混合规则的柔性车间AGV实时调度(关注点:状态、奖励函数的设置)_dqn奖励函数

dqn奖励函数

1 文章简介

本文原文可查阅文献:

Deep reinforcement learning based AGVs real-time scheduling with mixed rule for flexible shop floor in industry 4.0 - ScienceDirect

 本文针对对象为柔性车间,提出了一种基于混合规则的自适应深度强化学习(DRL) AGV实时调度方法,以最小化完工时间和延迟率为目标。

2 状态设置

        主要考虑任务状态和AGV状态,如下:

(1)任务数量N_{t},表示当前需要运输的任务总数。

(2)当前任务的平均剩余时间:

(3)当前任务的平均运行距离

(4)备选AGV的工作状态,用二进制数表示,空闲为0,不空闲为1.

(5)AGV的行驶速度。

3 奖励函数

        设计奖励函数是为了评估行动和优化政策。本研究旨在降低agv实时调度的完工时间和延迟率。为了在同一维度上评价这两个指标,引入时间成本和延迟成本的概念如下:

C_{ikd}:表示AGV i操作任务k的延迟成本;C_{id}:AGV i 的总延迟成本;C_{d}:整个调度的总延迟成本

t_{ik}:任务k的运输时间;t_{kr}:AGV i的总延迟时间

 C_{ikT}:AGV i执行任务k的时间成本;C_{T}:总调度时间成本;T:makespan

随着上述成本的降低,调度绩效将得到改善。因此,根据延迟成本和时间成本定义奖励函数如下:

 R_{t}:用于评估单个任务的行动的当前奖励;

R_{f}:用于评估调度的整体性能的最终奖励;

c_{ad}/c_{aT}:单个任务的平均延迟成本和平均时间成本

C_{ad}/C_{aT}:整个调度的平均延迟成本和平均时间成本

4 动作

 5 体系结构

算法框架:

 

6 效果 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/295881
推荐阅读
相关标签
  

闽ICP备14008679号