赞
踩
这是一篇使用强化学习方法来解决建筑能源的论文,作者将MPC和RL结合起来来用于建筑室内温度的调节。
首先,作者通过讨论每种方法的主要方面,在概念水平上强调RL和MPC之间的互补性。其次,描述了RL-MPC算法,该算法有效地结合了来自每种方法的特征,即状态估计、动态优化和学习。最后,MPC、RL和RL-MPC在BOPTEST中实现和评估
一方面,MPC处理不确定性、系统复杂性和长期预测范围,而深度强化学习可以自然地处理复杂系统的不确定性和无限预测范围。另一方面,RL难以满足约束,缺乏可解释性,而MPC可以提供安全性保证和可理解性。
在比较中,MPC使用灰箱模型,RL代理使用基于值的算法。
在本文中,作者将MPC目标函数与RL代理值函数相结合,同时使用根据领域知识编码的非线性控制器模型。这种做法确保了两种方法之间的互操作性,并能够截断MPC优化问题。
这篇论文的主要局限在于缺乏RL-MPC的理论保证,这只能通过经验测试。
更一般地,RL已经被提议与MPC合作用于除建筑能源管理之外的应用,建议使用MPC作为RL的函数近似值。
(1)MPC
首先,从工厂获得一个测量向量
m
m
m,一个刻画当前系统特征的状态向量
x
^
\hat{x}
x^。然后,根据目标函数
J
J
J和控制模型
F
F
F对未来状态向量
x
x
x和输入轨迹
u
u
u进行优化,同时也引入限制
H
H
H。目标函数
J
J
J、模型
F
F
F、限制
H
H
H包含的变量包括:模型输出
y
y
y,代数变量
z
z
z(是个什么东西),干扰
d
d
d,时间独立变量
p
p
p,另外,预测的未来干扰
d
(
t
k
,
t
k
+
Δ
t
h
)
d(t_k,t_k+\Delta t_h)
d(tk,tk+Δth)作为优化器的外部输入。
状态 x x x表示当前的一些温度, y y y是 x x x的一个子集。 d d d表示影响建筑的其他不可控变量,如外部温度和太阳辐射等。
(2)MDP(markov决策过程)
通过3.1可以看到MPC和RL有许多的相似之处。MPC的目标是最小化目标函数
J
J
J,RL的目标是最大化累积收益
G
G
G。两者之间的关系可以通过即时奖励来形式化:
MPC的求解可以分为隐式和显式。动态优化问题的求解是隐式预测控制方法的核心。可以确定三种主要的求解方法来解决动态优化问题:动态规划(DP)、直接方法和间接方法。
在MPC中,最优解的质量取决于控制器模型的精度,由于计算原因,控制器模型经常被简化。
另一方面,基于动态规划的方法依赖于贝尔曼原理,可以为全局最优提供充分条件。不利的是,这些方法受到维数灾难的阻碍。
MPC沿有限预测范围使用显式优化,RL学习动作以优化当前和未来折扣奖励的总和。MPC的一个缺点是有限的视野。
模型和函数近似在MPC和RL中的使用是不同的。
在MPC中,用来表示系统的模型称为控制器模型。这些模型是通过领域知识、系统识别或从历史监测数据的监督学习获得的。通常情况下,控制器型号被划分为白盒、灰盒或黑盒,这取决于物理观察和/或监控数据是否用于其配置。MPC中的优化问题对控制器模型施加了严格的限制,这些模型通常被简化以保证收敛性,但代价是性能损失。
来自控制和机器学习的元素被有效地结合,即状态估计、动态优化和学习。
在MPC-RL中,作者使用RL超前一步的状态估计值来截断MPC的非线性规划。具体来说,使用基于值的Rl来估计MPC在超前一个状态 s ′ s' s′的值。
MPC的主要组件在RL-MPC中不变,即状态估计器、预测器和优化器,但是值函数用于缩短非线性程序并实现学习,如图:
RL中的q值
考虑MPC,可以改写为
定义状态值函数:
这允许将动作值函数重新表述如下:
假设知道了控制器模型,RL-MPC遵循的策略在等式组中定义:
RL-MPC的算法描述:
1-3行为离线学习,而第4–10行构成了算法在实际建筑环境中的部署。
实验流程:
控制器的最终目标是保证热舒适性,同时将运行成本降至最低。
MPC需要一个控制器模型 F F F,来确定环境 E F E_F EF来预训练RL和RL-MPC算法。
在每一个控制步骤中需要解决的优化问题如下图所示:
P
P
P是功率,6是不舒适度,被定义为实际温度与温度上下界的偏离。
状态的维度 ∣ S ∣ |S| ∣S∣为608,将动作隔离为11个离散的单位。算法采用DDQN算法,DDQN是一种非策略算法,它按照随机梯度下降方案更新网络权重。
RL-MPC算法继承了MPC和RL实现中描述的所有属性和超参数。这意味着使用与MPC相同的控制步骤、预测范围和状态估计器,以及与RL代理相同的预训练q函数。
本文提出并评估了强化模型预测控制RL-MPC,这是一种有效地结合了RL和MPC的元素(如状态估计、动态优化和学习)的算法。
新算法在确定性设置中获得类似于MPC的性能结果,即使当使用不完美的值函数时。它还能够像经典的RL方法一样进行学习,这种方法允许自然地处理不确定的环境或复杂的奖励,而不需要它们的分析形式。
此外,RL-MPC的当前实现可以通过用定义价值函数的方程扩展控制器模型来进一步改进,以使用有效的优化技术并实现算法的可扩展性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。