赞
踩
前言
由于本篇综述实在太长,故分为三部分,此乃第二部分。第一部分:光伏发电量和用电量的概率预测研究综述(1)
由于本文主要涉及概率预测,本节专门介绍这些特定的预测方法。
虽然在SPF中,时间序列方法(如ARIMA)和基于人工智能(AI)的方法(如人工神经网络)都被认为是统计方法,但在负荷预测中,通常会对统计方法和基于人工智能的方法进行区分。
最后,本文只是列举了概率预测的一些常用方法。
下面分别介绍参数化和非参数化方法。
3.1.1讲述参数化方法。
参数方法依赖于将已知密度函数拟合到预测误差,通过围绕确定性预测假设密度函数。对于统计方法,这些确定性预测通过诸如ANN或ARIMA的众所周知的方法来实施。然而,这些方法超出了本文的范围,感兴趣的读者可以参考[15],[16],[26]获得更多信息。由于参数方法依赖于确定性模型,因此本节非常简短。然而,为了说明这种方法是如何工作的,David等人[70]提供了一个合适的例子。他们的模型基于广义自回归条件异方差(GARCH)模型,该模型估计非常数方差。假设该模型的误差是正态的,然后,相应地建模以构建预测间隔。
总结:对于统计方法,参数化的体现是ANN或者ARIMA等,但不在本文讨论范围之内。
表一:
3.1.2讲述非参数方法。
分位数回归。
从表1中可以看出,构建非参数PDF的最常用方法是QR。这种方法是由Koenker&&Bassett[71]在1978年引入的,他们认为假设正态性或任何其他分布是很不现实的,因为一些错误可能导致偏离这些分布,为了建立非参数方法,Koenker和Bassett意识到中位数可以定义为由于中位数的对称定义而导致绝对残差最小化的解决方案,这就得来第0.5个分位数。实际上,QR是基于调查中的每个
τ
\tau
τ分位数定义回归模型并将它们组合以创建概率预测。
令
X
~
\tilde{X}
X~为一个随机响应变量,
X
X
X为预测变量,令
x
~
\tilde{x}
x~和
x
x
x为随机变量的实现,令
F
(
x
~
∣
X
=
x
)
=
P
(
X
~
≤
x
~
∣
X
=
x
)
F(\tilde{x}|X=x)=P(\tilde{X} \leq \tilde{x}|X=x)
F(x~∣X=x)=P(X~≤x~∣X=x)为累积分布函数,则阶数
τ
,
q
τ
(
x
)
\tau,q_{\tau}(x)
τ,qτ(x)的条件分位数可以定义为:
q
τ
(
x
)
=
F
−
1
(
x
~
∣
X
=
x
)
=
i
n
f
{
x
~
∈
R
,
F
(
x
~
∣
X
=
x
)
≥
τ
}
q_{\tau}(x)=F^{-1}(\tilde{x}|X=x)=inf \{\tilde{x} \in R,F(\tilde{x}|X=x)\geq \tau \}
qτ(x)=F−1(x~∣X=x)=inf{x~∈R,F(x~∣X=x)≥τ}
其中
τ
∈
[
0
,
1
]
\tau \in[0, 1]
τ∈[0,1]。如前所述,中值可以定义为绝对残差的最小化,它可以通过求解以下最小化问题来推广以获得其他分位数[67]:
q
τ
(
x
)
=
a
r
g
m
i
n
E
{
L
τ
(
X
~
τ
,
x
)
∣
X
=
x
}
q_{\tau}(x)=argmin\ E\{L{\tau}(\tilde{X}_{\tau}, x)|X=x\}
qτ(x)=argmin E{Lτ(X~τ,x)∣X=x}
其中
L
τ
(
X
~
τ
,
x
)
L{\tau}(\tilde{X}_{\tau}, x)
Lτ(X~τ,x)是式(2.45)中定义的弹球损失函数。值得注意的是,QR也可以用作后处理技术,从点预测技术中获取密度函数。另一个重要的注意事项是,由于每个分位数是独立预测的,因此可能发生分位数交叉,这违反了单调性[72]。
q
~
τ
i
(
x
)
≤
q
~
τ
i
+
1
(
x
)
∀
i
,
.
.
.
,
τ
q
u
a
n
t
i
l
e
s
,
s
o
t
h
a
t
τ
i
≤
τ
i
+
1
\tilde{q}_{\tau_{i}}(x)\leq\tilde{q}_{\tau_{i+1}}(x)\forall\ i,...,\tau\ quantiles,so\ that\ \tau_{i}\leq\tau_{i+1}
q~τi(x)≤q~τi+1(x)∀ i,...,τ quantiles,so that τi≤τi+1
已经提出了许多方法来规避这种情况,例如单调重新排列或联合估计[72]。感兴趣的读者可参考[71],[73],[67]以获取更多信息。
分位数回归森林。
另一种用于构建非参数密度函数的方法是分位数回归森林(QRFs),它建立在随机森林(RFs)上,这是Breiman在2001年开发的一种回归集成学习方法[74]。QRFs最初由Meinshausen于2006年提出[67],旨在存储有关观测的所有信息,并能够基于该信息构建条件分布,与RF相反,其中只有某个节点中观测值的均值被储存了。
随机森林参考:决策树与随机森林(从入门到精通)
QRF的工作原理如下[67]:首先,与RF类似,生长k个树
T
(
θ
t
)
T(\theta_{t})
T(θt),其中
θ
t
\theta_{t}
θt是随机参数向量,它控制着树T和t=1,…,k,的分支的每个分裂点处的变量,与RF的不同之处在于所有信息(而不仅仅是平均值)都存储起来。
对于预测器X的某个实现x来说,下一步是分别为i∈{1,…,n}的每个树和每个观察计算观测值权重
w
i
(
x
,
θ
t
)
w_{i}(x,\theta_{t})
wi(x,θt)和
w
i
(
x
)
w_{i}(x)
wi(x)。这些权重定义如下:
w
i
(
x
,
θ
t
)
=
1
{
X
i
∈
R
ζ
(
x
,
θ
)
}
#
{
j
:
X
j
∈
R
ζ
x
,
θ
}
w
i
(
x
)
=
k
−
1
∑
t
=
1
k
w
i
(
x
,
θ
t
)
w_{i}(x, \theta_{t})=\frac{1\{X_{i}\in R_{\zeta_{(x,\theta)}}\}}{\#\{j:X_{j}\in R_{\zeta_{x,\theta}}\}}\\ w_{i}(x)=k^{-1}\sum_{t=1}^{k}w_{i}(x, \theta_{t})
wi(x,θt)=#{j:Xj∈Rζx,θ}1{Xi∈Rζ(x,θ)}wi(x)=k−1t=1∑kwi(x,θt)
其中Rℓ(x,θ)是空间S的矩形子集,其中X对于每个叶子ℓ=1,…,L.此外,每个只有一个叶子ℓ因此也是x∈Rℓ,然后可以将其定义为树T(θ)的ℓ(x,θ)。
之后
F
~
(
x
~
∣
X
=
x
)
\tilde{F}(\tilde{x}|X=x)
F~(x~∣X=x)可以插入式(3.1)代替
F
(
x
~
∣
X
=
x
)
F(\tilde{x}|X=x)
F(x~∣X=x)来获得分位数
q
~
τ
(
x
)
\tilde{q}_{\tau}(x)
q~τ(x)。一旦构建和训练了随机森林,就可以从树上得到来自测试数据集的观察结果,之后将在每个分裂点处对其进行比较并指向最相似分支的方向,随后可以估计输出。从某种意义上说,这可以与最近邻居方法进行比较,本节稍后将对此进行说明。
高斯过程。
在第4节中相对较少的方法是使用高斯过程(GP),在Rasmussen和Williams[75]的书中广泛讨论。这种非参数和概率方法基于贝叶斯定理,其定义如下:
p
(
θ
∣
y
)
=
p
(
θ
,
y
)
p
(
y
)
=
p
(
y
∣
θ
)
p
(
θ
)
p
(
y
)
p(\theta|y)=\frac{p(\theta,y)}{p(y)}=\frac{p(y|\theta)p(\theta)}{p(y)}
p(θ∣y)=p(y)p(θ,y)=p(y)p(y∣θ)p(θ)
这里
θ
\theta
θ是一组未知参数,y={y1,…,yn},p(y|θ)表示给定模型参数θ在数据y上的PDF,p(θ)是先验,表示对模型参数的先验信念参数和p(θ|y)后验分布,是我们观察y后p(θ)的更新版本。换句话说,目的是在观察新数据时更新我们对先验的信念。以这种方式,可以以概率方式学习参数θ,其中PDF表示伴随这些参数的不确定性。
GP的定义表明它是随机变量的集合,并且这些随机变量的任何子集都具有联合多元高斯分布,其具有均值μ和协方差矩阵K[75]。更直观地,可以想象GP是某个函数f的表示,例如,观察x1和x2,生成输出f(x1)和f(x2),然后假设它们是根据N(μ,K)的联合高斯分布。然而,这不必限于两个观察,因此我们可以将该概念扩展到任意数量的输入x={x1,…,xn},使得协方差矩阵K可以定义为[76]:
其中
k
(
x
i
,
x
j
)
k(x_{i},x_{j})
k(xi,xj)是协方差函数或内核,表示任何输入x之间的相关性。有关内核的更多信息,请参阅[75]。另外,我们可以将平均函数定义为μ(x),以便多元高斯分布相当于:
在进行新观察的情况下,例如x*,可以首先通过定义新的联合分布来计算后验分布。
随后,我们可以根据计算后验分布
有关使用GP进行多步预测的更多信息,感兴趣的读者可参考Girard等人[77]的文章。同样,感兴趣的读者可以参考Roberts等人[76]有关时间序列建模情况下GP的更多信息。
自举法。
自举法由Efron[78]在1979年提出,作为一种从随机样本
X
=
(
X
1
,
X
2
,
…
,
X
n
)
X=(X_{1},X_{2},…,X_{n})
X=(X1,X2,…,Xn)中估计随机变量R(X,F)的概率分布的方法,这些随机样本来自一个未知的父分布F。由于其简单性,自举方法在许多研究领域得到广泛应用,它包括三个步骤。第一,一个样本的概率密度函数
F
~
\tilde{F}
F~是由
X
i
X_{i}
Xi的n个实现构成,即
x
1
,
x
2
,
…
,
x
n
x_{1},x_{2},…,x_{n}
x1,x2,…,xn。第二,通过从
F
~
\tilde{F}
F~替换绘制,创建大小为n的随机样本,即自举样本
X
i
∗
=
(
X
1
∗
,
x
2
∗
,
.
.
.
,
x
n
∗
)
X_{i}^{*}=(X_{1}^{*},x_{2}^{*},...,x_{n}^{*})
Xi∗=(X1∗,x2∗,...,xn∗),其中
X
i
∗
=
x
i
∗
X_{i}^{*}=x_{i}^{*}
Xi∗=xi∗。最后,R(X,F)的分布可以通过自举分布来近似,其中经常使用MC,因为它允许以有效的方式良好地近似父分布,虽然自举的缺点是所需数据的数量和随之而来的计算负担。
自举法参考:机器学习之Ensemble(Bagging、AdaBoost、GBDT、Stacking)
限上限估算(LUBE)方法。
Khosravi等人[79]在2011年介绍了下限上限估算(LUBE)方法,因为他们认为,用于构建预测区间的普遍方法是值得怀疑的。作者认为这些方法主要基于最小化预测误差,而非改进预测区间的质量,即,如式(2.38),(2.40),(2.41)所定义的PICP,PINAW和CWC。这是预测区间的关键特征。
LUBE方法从构建具有两个输出而不是一个输出的几个神经网络(NN)开始,一个是预测区间的上限,另一个是下限。可以利用传统的学习方法在训练数据集上训练神经网络并获得初始参数和权重,或者也可以随机分配这些参数和权重。选择具有最低PINAW的,同时满足PICP的候选者,作为最佳结构,之后初始化NN权重和优化算法,例如粒子群优化(PSO)[64]。随后,该最佳结构用于构建训练数据集的预测区间,计算CWC。如果在几次迭代之后CWC不再改进,则利用NN的最佳参数集来测试测试数据集,并且可以创建相应的预测区间。
梯度提升。
梯度提升(GB)由弗里德曼[80]于2001年提出,其目的是将弱学习器(即具有有限预测信息的自变量)线性组合到单个预测模型中。与其他提升方法类似,预测模型在初始猜测函数(通常是数据集的均值)和适合后续残差的函数的情况下迭代地建立,称为提升。这意味着模型通过学习先前模型的误差来改进自身,前者模型是难以拟合的实例,之后所有模型都被赋予权重并组合成一组预测变量。然后可以将最终模型表述如下[80]:
F
^
(
x
)
=
f
^
0
(
x
)
+
∑
m
=
1
M
f
^
m
(
x
)
\hat{F}(x)=\hat{f}_{0}(x)+\sum_{m=1}^{M}\hat{f}_{m}(x)
F^(x)=f^0(x)+m=1∑Mf^m(x)
其中
f
^
0
(
x
)
\hat{f}_{0}(x)
f^0(x)是初始猜测,
f
^
m
(
x
)
\hat{f}_{m}(x)
f^m(x)是提升m处的残差模型,M是提升的总数。在训练阶段,目的是根据可微分损失函数
L
(
x
^
,
F
(
x
)
)
L(\hat{x},F(x))
L(x^,F(x))找到描述误差的函数,例如,在式(2.45)中的分位数损失函数。根据[80],每次提升根据最陡下降的梯度:
f
^
m
(
x
)
=
−
ρ
m
g
m
(
x
)
\hat{f}_{m}(x)=-\rho_{m}g_{m}(x)
f^m(x)=−ρmgm(x)
其中:
GB的一个有趣的特征是执行内在变量选择,以及为每个分位数训练τ个不同模型以获得密度函数的可能性。值得注意的是,存在这种方法的扩展,例如Bühlmann提出的扩展,其中只选择了d-预测变量中的一个预测变量,感兴趣的读者可参考[80],[81]。
GB参考:机器学习之Ensemble(Bagging、AdaBoost、GBDT、Stacking)
核密度估计。
核密度估计(KDE) 是一种非参数方法,用于估算从未知密度F中抽取的随机变量的密度
F
^
\hat{F}
F^,由Rosenblatt[82]和Parzen[83]独立提出。想象一下,从前面提到的密度F中绘制一个样本(x1,x2,…,xn),然后将它们组织到直方图中的箱子(区域)中。根据样本之间的距离,直方图具有多个比其他区域更高的箱子(区域),例如,如果图形的值彼此接近并且分辨率是粗略的,则这些图形将被添加到相同的箱子(区域)中。这意味着直方图是非平滑的,并且核密度估计器旨在通过在每个点上施加具有特定宽度的核函数,来平滑每个样本点xi的贡献,其中i∈{1,…,n}。核密度估计器的公式如下:
其中K(⋅)是核函数,h>0是带宽,这是一个平滑参数。核K(⋅)必须是积分为零且具有零均值的函数,例如均匀,三角形或正态的。选择h时需要特别注意,因为将参数设置得太低导致了欠平滑的KDE,其中基础分布的噪声使
F
^
\hat{F}
F^变形。另一方面,将h设置得太高意味着来自基础分布F的信息将丢失。确定最佳带宽hopt的常用方法是通过最小化渐近平均积分平方误差(AMISE)。AMISE可以表示如下[82]。
A
M
I
S
E
=
1
2
h
N
+
h
4
36
∫
−
∞
∞
∣
F
n
(
x
)
∣
2
d
x
AMISE=\frac{1}{2hN}+\frac{h^4}{36}\int_{-\infty}^{\infty}|F^{n}(x)|^2dx
AMISE=2hN1+36h4∫−∞∞∣Fn(x)∣2dx
值得注意的是,AMISE(h)取决于基础分布F的二阶导数,这是人们想要确定的分布,因此是未知的。然而,可以证明,可以使用更高的导数来表达类似的表达,并且在F可以被假定为正态之前,这仅需要进行两次或三次。然而,这不属于本文的范围,感兴趣的读者可参考[82-84]。
k-最近邻(k-NN)。
k-最近邻(k-NN)是一种相对简单的机器学习方法,它依赖于将观察结果与训练样本中k个类似的过去观察结果进行比较,以创建概率分布[85]。该算法计算观测和过去观测之间的超空间中的距离,例如欧氏距离,以确定最接近当前观测的k个邻居。例如,如果k=1,算法将简单地选择最近的邻居。
k的值需要相对较高,以便降低总噪声,并且可以通过交叉验证选择或凭经验选择。此外,通常将更多权重分配给更接近当前观察的过去观察,例如,通过给每个邻居赋予1/d的权重,其中d是观察与邻居之间的距离。
k-NN需要考虑的一个关键方面是,由于维数灾难,维度需要保持相对较小。这意味着搜索空间随着维度的增加呈指数增长并产生显著的稀疏性,直到观察的簇变得太远并且统计显著性明显降低。
KNN参考:最简单的分类算法之一:KNN(原理解析+代码实现)
模拟集成法。
模拟集成(AnEn)由Delle Monache等人[86]在2013年提出,它可以看作是一种混合方法,因为它结合了NWP预测,NWP过去预测和光伏发电量测量。在假设过去预测的误差可能与当前NWP预测的误差相似的情况下,该算法搜索了与当前预测相似的气象变量的预测,从而显示了与k-NN的许多相似之处。然后,使用与当前NWP预测相似的过去预测相关的测量功率产生来构建密度函数。相似性或距离的表述如下[86]:
其中
F
^
t
\hat{F}_{t}
F^t和At分别是确定性NWP模型t时间的当前和模拟过去预测;N是物理变量的个数,wi是它们的权重,
σ
F
i
^
\sigma_{\hat{F_{i}}}
σFi^是它们各自时间序列的标准差,
t
~
\tilde{t}
t~代表了计算距离时时间窗口的一半的宽度。所以,j是计算距离时时间窗口的宽度,权重wi可以在训练集上最小化CRPS计算得到(定义如式2.43)。算完距离后,就可以构建一个排序,包含n个来构建密度函数。
Delle Monache等[86]指出AnEn与基于NWP的集成相比的优势在于,AnEn仅需要物理模型运行一次,而NWP集成需要多次运行并具有扰动以构建密度函数。潜在的缺点是没有对NWP预测进行后处理,这些预测倾向于存在偏差。
3.2节讲述物理方法。
通过物理方法,通常的做法是假设描述错误的密度函数。其原因在于物理方法允许在非参数方法方面的变化较小,因为在那种情况下需要应用统计方法形式的后处理。这通常被称为混合方法,并在第3.3节中详细说明。
参数化方法。
参数方法依赖于将预测方法的误差建模,在这种情况下是物理模型,作为特定密度函数,例如,法线,β或伽马。这可以通过几种方式实现。例如,Lorenz等人[8]将预测误差建模为正态分布,随后评估误差是否依赖于晴空指数和太阳天顶角。然后将该依赖性建模为四阶多项式,之后可以估计未来的误差。
另一种方法是由Fonseca Jr.等人[87]提出,其中假设正态分布和拉普拉斯分布,之后计算预测区间限制,其中可以以某个预定概率找到预测。
非参数化方法。
如前所述,非参数方法的可能方法几乎没有变化。实际上,目前正在使用一种方法,称为集成预测。该方法依赖于NWP模型的多次运行,但在初始和边界条件下的微小扰动,被设计为在统计上相同。通过这种方式,产生了若干确定性预测,之后可以从这些预测中构建密度预测。这种方法的缺点是运行NWP模型在计算上要求很高,尤其是几次带有扰动的运行。
3.3节讲述混合方法。
如前所述,NWP模型构建概率预测的密度函数的能力有限。同样,基于天空图像的预测也缺乏生成PDF的能力。因此,存在混合方法,其中物理方法的后处理通过统计方法完成,以便消除偏差并构建密度函数。
楚等人[88]提出了一种基于天空图像和五种统计模型的混合方法,即四个ANN和一个支持向量机(SVM),分别用于预测平均DNI和相关标准偏差并对变异周期进行分类。在假设这些是正态分布的情况下,利用方差来构建预测区间。
另一个例子是Sperati等人[89]的工作,他们利用欧洲中期天气预报中心(ECMWF)集合预报系统(EPS)对NWP模型进行集成预测,之后使用NN来减少偏差并创建PDF,以及其他两种后处理技术,将在下一节中详细说明。
总结:
本节回顾了有关PSPF和PLF的最新研究,并结合其他几项对预测领域至关重要的研究。该部分根据预测范围进行组织,因为时间范围是模型的突出特征。此外,这种划分允许我们以比例如基于参数或非参数划分的更高分辨率来辨别彼此的研究。此外,表1提供了本文正在综述的研究的概述,并按照其发表年份的时间顺序排序。
小时内的。
小时预测通常基于统计方法,尽管在PSPF的情况下,它也可以通过天空图像来实现,如图1所示。关于负荷预测,小时内预测相当罕见,即消费数据的分辨率比较粗狂。然而,智能表计的最新发展允许以更高的时间分辨率进行测量,这就允许降低时间范围。
太阳能。迄今为止,最短预测提前期的研究是Torregrossa等人[90]所做的工作。他们认为,由于太阳辐照度在亚秒级时间范围内变化极大,因此有必要找到太阳辐照度的边界,这可能有助于智能电网的实时控制。他们所提出的方法,称为动态区间预测器(DIP),其工作前提是可以在太阳辐照度的导数和确定性预测误差之间找到显著的相关性,并且可以基于上述相关性估计预测区间。该方法的一个优点是它不依赖于确定性预测模型。然而,对Torregrossa等人的评估不佳,这是因为他们声称“在PV预测领域呈现的所有工作都假设了高斯创新”,而他们指的是Bacher等人[91],其中QR已用于构建非参数预测区间。然而,作者提出了一种创新方法,其工作时间分辨率为250和750毫秒,提前期为2-6秒,在覆盖概率方面表现出良好的性能。根据分辨率和范围,PICP介于97.94%和99.92%之间。利用一种度量来量化预测区间的宽度,但不幸的是,没有如式(2.40)所定义的PINAW。作者没有考虑所有观测结果,而是排除了超出预测区间的预测。
作为上述工作的延续,斯科拉里等人[92]通过应用两项主要改进提高DIP模型的性能。首先,作者发现将误差定义为预测和测量之间的绝对误差产生了比相对误差更真实的结果,因为后者在低测量交流电(AC)功率时可能会产生误导。其次,它们将测量的交流功率的导数与确定性预测误差之间的相关性聚类为交流功率本身的函数。作者继续表明,绝对误差确实比相对误差表现得更好,前一种方法使PICP始终高于标称置信水平。最后,他们展示了聚类的包含导致更好的性能,最显著的是导致提前时间分别为100毫秒到500毫秒的PINAW(0.0055-0.24%)和CWC(0.055-0.24%)。
上述研究的作者继续研究[93]中的(非常)短时间范围。类似地,通过k均值算法进行聚类,以根据解释变量的值将晴空指数的观测分组到特定聚类中。然而,与之前的研究相反,本文没有考虑导数。对原始和差异化的晴空指数时间序列进行聚类,其中后者用于进一步对原始时间序列进行固定。在聚类之后,可以为每个聚类计算预测区间。为了保证计算性能,上述计算,即预测间隔的聚类和计算,都可以离线完成。在运行模型时,将解释变量的观察结果与聚类进行比较,并返回对应于最近聚类的预测区间。结果显示模型的有效性:对于500ms的预测范围和分辨率,所提出的模型实现了96.1%和98.2%之间的PICP,0.047%和0.27%之间的PINAW以及0.047%和0.27%之间的CWC,具体取决于季节。当预测范围增加并且时间分辨率降低至1分钟时,该模型实现了PICP在96.9%和97.8%之间,PINAW在3.26%和10.5%之间,CWC在0.3.26%和10.5%之间,也取决于季节。最后,对于5分钟的预测范围和时间分辨率,发现PICP介于96.1%和96.7%之间,PINAW介于6.70%和17.9%之间,CWC介于6.70%和17.9%之间。值得注意的是,这里的PICP结果是在95%的标称置信水平下实现的,因此可以认为是有效的。
Wan等人[94]提出了一种预测丹麦10千瓦光伏系统发电的方法,预测范围为5分钟,时间分辨率相同。所使用的方法基于QR和极端学习机(ELM),它是前馈NN的一种形式。ELM的优点是随机选择输入权重,并且在一个步骤中学习隐藏节点和输出之间的权重。因此,它有效地类似于线性系统,这显著减少了训练时间。在覆盖率方面取得了良好的结果,得分为-0.0222,同时优于所有基准模型,即持久性,基于引导程序的NN(BNN)和颗粒计算(GC)。
Chu等人[88]使用混合方法预测直接正常辐照度(DNI),其预测前置时间为5-20分钟,时间分辨率为1分钟。该方法基于天空图像,SVM和ANN子模型,旨在产生实时预测间隔。首先,基于红色强度和蓝色强度的比率分析天空图像,因为云像素倾向于具有比晴空像素更高的红色强度。然后,利用SVM将天空图像和DNI时间序列分为两类:具有高和低可变性的天。最后,针对两个类别训练了两个人工神经网络:一个预测辐照度,另一个预测标准偏差,假设正态分布。结果显示,与基准模型相比,在所有前沿的CWC方面表现出色,即持久性和BNN,最显着的是在具有高变异性的日子,其中CWC在0.554和8.733之间。
Chai等人[95]通过将时间序列分割成具有下限和上限的统一时间窗口,并利用所有获取的粒度时间序列作为随机向量前向链路(RVFL)网络的输入,来解决构建高度可变时间序列的预测间隔的问题。预测提前期为10分钟,分辨率为1分钟。与LUBE方法类似,作者认识到可以通过增加预测间隔宽度来实现更高的覆盖概率,即高可靠性。因此,他们通过PSO最小化平均覆盖误差和得分来解决这个问题。结果显示,PICP和PINAW分别为91.20%和16.94%,并且与作者早先提出的模型相比,显示出在高变异性期间可靠性显着提高。
为了预测太阳辐照度,David等人[70]提出在正态假设下,结合参数的递归估计使用ARMA和GARCH模型以参数方式构建预测区间。预测范围为10分钟,与分辨率相似。由于时间序列应该是平稳的,作者使用晴空指数而不是GHI。参数的递归估计基于递归最小二乘(RLS)并且用于结合诸如飓风的短期模式,其对辐照度具有深远影响。结果表明,与持久性集合相比,CRPS的改善率为7.8%至25.1%。然而,作者指出,尽管假设了正态分布,但这不是一个有效的假设,这反过来又导致它在某些条件下过于自信。
Golestaneh等人[44]采用另一种与QR结合的ELM。对于PSPF,提前时间长达一小时。作者选择ELM是因为它具有极快的学习机制,并利用PSO确定输出节点相对于技能分数的最佳权重。此外,每天的预测窗口限于特定时间,其数量在全年保持不变。作为基准,应用了持久性,气候学,混合智能算法(HIA)和自举ELM(BELM),其中HIA源于PWPF的改进以发现非参数预测密度。作为案例研究,两个独立的站点进行了调查,分析时间为10分钟和1小时。此外,利用k折交叉验证来确定参与的滞后数的最佳值。结果表明,基准分子BELM和持久性在分位数分数方面表现良好但缺乏可靠性,在BELM的情况下偏差高达20%。此外,气候学和HIA在锐度和可靠性方面表现不佳,而所提出的方法在具有可接受的锐度的同时实现了高可靠性。定量地,所提出的方法在分位数得分方面提高了4%到14%的性能而不是持久性。
Boland[96]应用耦合自回归和动力系统(CARDS)来预测法属西印度群岛三个地点的太阳辐射,利用这些地点之间的部分相关性来改善预测,评估为10分钟和每小时。然而,发现最高分辨率的相关性不显著,而小时但是在每小时时间尺度上显著。该方法的工作原理如下:首先,通过使用傅里叶级数对功率谱进行建模,之后从数据中减去模型的贡献,留下随后用CARDS方法建模的残差序列。由于相关性,作者在每小时的时间尺度上考虑了单个站点的滞后测量,以及其他两个站点的测量。然后,在假设误差是正态分布的情况下,采用类似的方法用自回归条件异方差(ARCH)模型对方差进行建模。遗憾的是,没有使用概率性能指标来评估所提出方法的性能。
为了构建光伏发电预测的概率预测,Wang和Jia[97]提出了一种基于径向基函数(RBF)的非参数模型用于确定性预测,LUBE方法用于预测区间。预测范围是一小时,时间分辨率为15分钟。为了改进模型的训练,作者根据类似的日期方法组织了历史数据,其中样本是基于季节类型,日间类型和大气温度构建的。后者的相似性基于欧氏距离计算。选择RBF网络是因为它是前馈网络,因此不需要反向传播方法来训练它,这提高了学习速度。尽管本文中使用的方法很有前景,但没有使用概率性能指标。
Chu和Coimbra[98]旨在利用k-NN预测DNI,预测范围为5-20分钟,分辨率为1分钟。在这种情况下,k被设置为30,并且基于预测与观测之间的距离对邻居进行加权。如第3.1.2节所述,k-NN的一个关键方面是尽可能地降低维数,因此作者使用滞后DNI观测作为内生输入,并将滞后DHI和天空图像特征作为外生输入。结果表明,k-NN集成优于持续集合和具有高斯分布假设的k-NN。作者报告,标称置信水平为90%,PICP介于0.93和0.96之间,PINAW介于0.22和0.57之间,持续5分钟,PICP介于0.91和0.93之间,PINAW介于0.31和0.70之间,持续20分钟。该模型在CRPS方面也优于基准,据报道,在5分钟的时间范围内达到0.031-0.098,在20分钟的时间内达到0.049-0.137。不幸的是,目前尚不清楚上述结果的单位是W/m2还是kW/m2,因为前者会产生非常令人印象深刻的结果,尽管这些不符合报告的RMSE。
负荷。如前所述,用一小时甚至一天的时间来预测电力需求是相当不寻常的。因此,本节仅综述在此范围内进行的两项研究。第一个是Bracale等人[99]的研究中,结合贝叶斯推理(BI)方法的随机时间序列被用来创建15分钟和24-48小时的范围的概率预测。此外,根据时间序列是否差异(正态分布)(Weibull或Log-Normal分布),利用若干密度函数来构建单个国内负载的预测间隔和五个国内负载的总和。所提出的模型使用测量和参数的先前PDF以及ARIMA对平均值的预测来通过BI导出先前PDF的共轭分布,以便建立国内负荷的预测后验分布。结果显示,与概率持续性相比,改善了27-31%。此外,结果表明,假设正态分布的方法提供了最好的可靠性,与理想可靠性的最大偏差小于3%。
第二个是Guan等人[100]的研究,以时间分辨率5分钟预测每小时范围的负荷,即随后的一小时内每5分钟有12个预测。为了实现这一点,作者将负荷数据分解为不同频率的三个分量,用于三个小波NN(WNN)。另外,使用日历变量作为WNN的输入,以帮助它们识别负载数据的周期性模式。然后通过混合卡尔曼滤波器训练WN-N,其具有可用于导出预测间隔的创新协方差作为输出之一。根据协方差,在正态分布的假设下,方差估计可以通过频率的正交性获得并加在一起,以确定总体方差。虽然没有使用概率性能指标来评估预测区间,但作者表明,正态性假设仅在去除尾部后才有效,因为它们比高斯分布更重。
在日内范围内预测太阳能和电力需求是常见的,因为通常存在能源交易的两个市场:日内和日前。因此,这两个方面的日内预测对于平衡生产和消费很重要。正如我们将要揭示的那样,本节中将要讨论的大多数方法都依赖于统计方法,因为物理模型在时间分辨率方面往往过于粗糙。
太阳能。Bracale等人[101]提出了一种与AR线性模型相结合的BI方法,其中上述研究[99]是一个延续,以预测1-3小时范围和1小时的时间分辨率的光伏发电功率。然而,在这项研究中,作者利用改进的Gamma分布来模拟清晰度指数分布,其中唯一未知的是下一时间步的平均清晰度指数,这是由AR模型估计的。然而,没有使用概率度量来评估预测区间。
本综述中分析的少数研究中使用卫星观测的研究之一是Bilionis等人[102]的研究。其中他们采用递归高斯过程(rGP)。作为第一步,为了降低卫星图像的维数,他们采用因子分析(FA),即概率主成分分析(PCA)的泛化方法。减少维数的一般想法是构造两个地图:缩小和重建地图,其中前者具有不会丢失太多信息的情况下尽可能小的尺寸。随后,作者应用rGP来学习减少输入空间的动态,以执行迭代预测,提前期为8小时,分辨率为30分钟。尽管由于减小的动力学的非线性,预测密度不再是高斯分布,但是仍然可以应用数值方法来产生预测密度。结果表明,所提出的基于卫星的方法在提前一步预测方面的表现略差于基于地面的模型,但在更大的时间范围内表现优于它,平均CRPS为0.18,尽管尚不清楚哪个单位CRPS在这种情况下。
Grantham等人[103]提出了一种统计方法,用于预测范围和分辨率为一小时的太阳辐照度全密度。该方法基于CARDS模型结合自举和太阳位置图,旨在展示如何将确定性预测转化为非参数概率预测。作者指出,辐照度取决于周期性,自回归和误差分量,后者被认为是由太阳位置引起的。因此,通过绘制样本内预测的残差与太阳小时角和太阳高度的关系,作者组织了方差的系统变化。应该注意的是,Lorenz等人[8]采用了类似的方法,尽管Lorenz等人。假设正态分布,而Grantham等人采取非参数方法。为了评估性能,作者使用了CRPS,其显示出比基准集合提高了10%。此外,所提出的方法产生比基准模型更窄的预测间隔,结合更高的覆盖率。
为了对PV具有高渗透率的配电网络进行风险评估,Tao等人[104]提出了一个框架,其中利用动态贝叶斯网络(DBN)进行概率预测。但是,由于该论文的主要重点是进行风险评估,因此没有注意以任何方式评估概率预测。
AlHakeem等人[105]提出了广义回归NN(GRNN),其权重和偏差由PSO优化以执行确定性预测,而bootstrap用于构建预测区间。然而,首先通过小波变换(WT)对测量输出功率的时间序列进行预处理以降低噪声并使时间序列稳定。预测范围是每小时分辨率为1-6小时。有趣的是,不是使用大量数据训练GRNN,而是使用预测前15天的每小时数据。除了分解的时间序列之外,还向GRNN提供辐照度和温度。在GRNN产生每个频率的预测之后,重建小波并且可以应用自举。不幸的是,只有确定性的评价指标用于评估预测,尽管显示预测间隔的图显示这些指标相当宽。
Bessa等人[106]进行的一项有趣的研究,作者提出了一种方法,将矢量自回归(VAR)和VAR与外因投入(VARX)框架的分布式PV生产测量相结合,以时间范围为6小时,分辨率为一小时的水平进行预测。两个聚集水平用于测量数据:家庭水平,即低电压(LV)和二级水平,即中压(MV)/LV(MV/LV)。该方法首先通过利用晴空生成来对测量的太阳能进行归一化,以便稳定时间序列。然后,建立模型,使得它们结合特定站点的太阳能测量结合相邻站点的滞后测量,因此它们使用时间和空间信息。但是,没有给出关于所使用的站点之间的相关性的细节。此外,RLS用于估计模型的参数,随后减少所需的数据量。最后,部署GB以选择预测变量并构建预测密度。结果显示,在CRPS方面,VAR模型的二级水平相对于AR基准的改善在1.4%至5.9%之间,而VARX模型在基准水平上的改善率高达16.4%。然而,VAR模型在家庭层面上的CRPS改善范围在-2.8%和4.6%之间,这是因为一些分位数表现不佳,正如作者所解释的那样,他们表示在某些情况下来自分布式传感器的信息减少了预测技巧。作者认为这是一个有趣的结果,因为“点预报技术的改进并未转化为某些分位数预测的改进”,这与[107]的作者在风电预测案例中的评论形成鲜明对比。
由Liu等人[108]完成的研究是利用NWP集合在日内范围上生成非参数概率预测,是少数研究之一,尽管也进行了提前一天和提前两天的预测。在该论文中,使用了天气研究和预测(WRF)模型,因为它能够以高分辨率进行模拟,这是时间分辨率为30分钟的原因。为了创建集成预报,作者采用滞后平均预测(LAF)方法,该模型产生三个单独的预测:日内,日前和2日前。第二天,WRF生成相同提前期的预测,并将当天的日内预测与前一天的提前预测相结合,以创建一个整体。在这项研究中,共有三个成员用于创建整体,尽管作者指出,包含更多成员可能会改善结果。此外,LAF方法计算具有不同初始条件和不同初始时间的每个成员。结果表明,经验覆盖率通常比名义覆盖率低20%~30%,这可能是由于WRF模型对GHI的过高估计(如作者所指出的那样)。但是,应该注意的是,预测区间的覆盖概率应该高于标称置信水平,因为否则它们是无效的并且应该被丢弃[65]。
根据2014年全球能源预测竞赛(GEFCom2014),Nagy等[109]提出了一种基于四种集成技术的方法,即投票,装袋,增强和堆叠,因为之前的研究表明,使用多个预测器往往会产生更好的结果。比赛的组织者提供了大量的数据,如表1所示。建立了两个模型,以每小时分辨率构建一个日内范围的完整预测密度:一个QRF和一个堆叠的投票RF-GB决策树(GBDT)。结果表明,在比赛过程中弹球损失的表现逐渐提高,最终结果为0.006-0.009,在比赛中排名第二。最后,作者指出,堆叠RF-GB导致太阳能和风能预测的最佳结果,但该模型训练非常耗时,但没有提到具体细节。
与之前的研究相似,Juban等[110]发表的论文也参与了GEFCom2014。然而,Juban等人的目标是为概率预测创建一个通用框架,并应用于风能,太阳能和价格预测。他们提出的框架按以下步骤解决问题:首先,建立了多QR(MQR)框架。其次,通过前向逐步程序选择最相关的预测因子。然后,通过径向基函数(RBF)生成特征,以便映射上述输入数据中的非线性关系。最后,作者提出了一种基于ADMM算法的优化方法,以最小化分位数损失函数,结合所有分位数和所有输入和输出上的ℓ2正则化,以便拟合可用于预测每个分位数的一组参数。虽然拟议的框架并未在PSPF竞赛中取得高分,但其弹球损失为0.0086,排名第五,真正的价值在于框架的一般性,导致风能,太阳能和价格预测的前五名排名。
张等人[111]应用高斯条件随机场(GCRF)以小时分辨率预测一步太阳能发电。使用GCRF是因为它们允许对空间和时间相关性进行建模,并将此特性应用于加利福尼亚州的一个城市。此外,作者还研究了GCRF在丢失数据时(例如在设备故障或通信问题的情况下)仍能表现得相对较好。结果表明,就RMSE和MAE而言,当缺少中等或大量数据时,所提出的模型显着优于ARX基准。由于GCRF能够提供预测密度,在不存在缺失数据的情况下,作者提出了不同季节的几个标准差的PICP。在冬季,GCRF没有设法达到足够高的PICP以被认为是有效的,但在今年余下时间就是这种情况,可能是由于天气变化增加。不幸的是,没有采用其他概率度量。
Aryaputera等人[112]采取了不同的方法,在他们的研究中,作者旨在比较贝叶斯模型平均(BMA)和集合模型输出统计(EMOS)在预测新加坡日内累积太阳辐照度时的表现。由于这些是后处理技术,因此从ECMWF,日本气象厅(JMA)和韩国气象厅(KMA)检索了预报。作为第一步,作者发现偏斜正常的PDF最适合这两种方法。接下来,线性回归用于BMA和EMOS以消除偏差,并且使用穷举搜索(ES)方法确定最佳训练天数。为了评估预测的质量,作者研究了可靠性图和CRPS。在可靠性方面,具有偏斜正常PDF的BMA表现最佳,因为它显示出相对较窄的预测间隔和低误差。此外,该方法也达到了最低的CRPS,值为292Wh/m2。
Takeda[113]采用了一种有趣的方法来预测日本大面积的太阳能发电。在确定自下而上策略(即分别预测光伏发电机并随后汇总)之后,与直接策略相比,可以MAE将降低3%,其中人们立即预测整个总量[52]。然而,作者还发现智能电表不够普及,因此公用事业公司无法准确跟踪每小时的光伏发电量。因此,通过天气观测和预报以及每月购买的光伏发电量来估算当地的光伏发电。此外,月度装机容量也被视为外因输入。为了能够预测和分析,使用了与状态空间模型(SSM)组合的集合卡尔曼滤波器(EnKF)。作者认为,将SSM与EnKF结合使用的原因是人工神经网络或MLR等统计方法无法提供有关电力消费结构变化的任何深刻的理解。此外,EnKF能够估计非线性SSM。得到的CRPS为24.06GWh,比MAE低5.6GWh,表明与确定性预测相比,集成的结果是合适的。
负荷。Almeida和Gama[114]提出了一种基于NN构建预测区间的方法,其提前期为0-24小时且具有每小时分辨率。作者使用了45个不同类型消费者所连接的变电站的总负荷需求。他们认为,由于存在许多不同的负荷配置文件,因此需要对这些配置文件进行聚类以提高预测性能。聚类是通过Kulback-Leibler距离进行的,因为欧几里德距离在处理较不稳定的数据(如住宅负荷)时会造成困难。为了创建非参数预测区间,采用了两种不同的方法。第一种是双扰动和组合方法(DPC),其中使用轻微扰动的数据进行预测。第二种方法是共形预测(CP),它假设数据是相同且独立分布的(i.i.d.),查看过去的数据以确定未来预测的置信水平。多层感知器(MLP)的输入是压延变量和负载曲线的过去值,属于某个簇。从结果看来,DPC方法在所有簇上显示出比CP更一致的PINAW性能,平均为20%。此外,可靠性图表明,在负载需求变化很大的集群的情况下,覆盖概率显着降低。不幸的是,在没有提到PICP达到63%和96%的信心水平的情况下,给出了一个说明PICP的情节。
未完待续!!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。