赞
踩
顾名思义,我们有了各种建模和估计不确定性的方法,就需要不同的测量来评估他们的好坏。通常情况下这些方法的正确性和可靠性是不能自动算出来的。其中存在的挑战如下:
对于分类任务而言,网络的softmax输出已经代表了置信度的测量,但是原始的softmax输出既不可靠,也不能代表所有的不确定度来源,因此还需开发进一步的方法和测量。
考虑有K个不同类别的分类任务,输入样本x对应的网络概率向量输出为p(x)。下面简写为
p
p
p,
p
k
p_k
pk表示向量中的第
k
k
k个条目。一般来说,给定的预测
p
p
p代表了一种分类分布,也就是说,它为每个类别分配了一个是正确预测的概率。由于预测不是作为一个显式类给出的,而是作为一个概率分布,(不)确定性估计可以直接从预测导出。通常情况下给定的预测p是分类分布,而这种逐点预测可以被视作数据不确定度的估计。然而模型估计出来的数据不确定度会受到模型不确定性的影响。为了估计预测的数据不确定性,通常使用最大类别概率以及熵,
Maximal probability:
p
max
=
max
{
p
k
}
k
=
1
K
Entropy:H
(
p
)
=
−
∑
k
=
1
K
p
k
log
2
(
p
k
)
\text{Maximal probability:} \quad p_{\text{max}} =\max\left\{p_k\right\}_{k=1}^K \\[1em] \text{Entropy:} \text{H}(p) =-\sum_{k=1}^Kp_k\log_2(p_k)
Maximal probability:pmax=max{pk}k=1KEntropy:H(p)=−k=1∑Kpklog2(pk)
最大概率代表了确定性的直接表示,而熵描述了随机变量中信息的平均水平。尽管softmax输出应该代表数据的不确定性,但我们不能从单个预测中看出影响特定预测的模型不确定性有多大。正如前面已经讨论过的,单个softmax预测并不是一种非常可靠的不确定性量化方法,因为它经常被糟糕地校准1,并且没有关于模型本身对这个特定输出1的确定性的任何信息。
学习的模型参数上的(近似)后验分布
p
(
θ
∣
D
)
p(\theta \vert D)
p(θ∣D)有助于获得更好的不确定性估计。有了这样的后验分布,softmax输出本身就变成了一个随机变量,人们可以评估它的变化,即不确定性。为简单起见,我们将
p
(
y
∣
θ
,
x
)
p(y\vert \theta, x)
p(y∣θ,x)也简写为
p
p
p,从上下文可以清楚地看出
p
p
p是否依赖于
θ
\theta
θ。最常见的测量方法是互信息(MI)、预期Kullback-Leibler散度(EKL)和预测方差。基本上,所有这些度量都计算(随机)softmax输出和预期softmax输出之间的期望散度。
p
^
=
E
θ
∼
p
(
θ
∣
D
)
[
p
(
y
∣
x
,
θ
]
.
\hat{p} = \mathbb{E}_{\theta\sim p(\theta\vert D)}\left[p(y\vert x, \theta\right]~.
p^=Eθ∼p(θ∣D)[p(y∣x,θ] .
MI使用熵来衡量两个变量之间的相互依赖关系。在所述的情况中,比较预期softmax输出中给出的信息与softmax输出中预期信息之间的差异,即:
MI
(
θ
,
y
∣
x
,
D
)
=
H
[
p
^
]
−
E
θ
∼
p
(
θ
∣
D
)
H
[
p
(
y
∣
x
,
θ
)
]
.
(MI)
\text{MI}\left(\theta, y \vert x, D\right) = \text{H}\left[\hat{p}\right] - \mathbb{E}_{\theta\sim p(\theta\vert D)}\text{H}\left[p(y \vert x, \theta )\right]~. \tag{MI}
MI(θ,y∣x,D)=H[p^]−Eθ∼p(θ∣D)H[p(y∣x,θ)] .(MI)
Smith和Gal1指出,当模型参数的知识不增加最终预测的信息时,MI最小。因此,MI可以被解释为模型不确定性的度量。Kullback-Leibler散度测量两个给定概率分布之间的散度。EKL可以用来测量可能的softmax输出之间的(预期)散度,
E
θ
∼
p
(
θ
∣
D
)
[
K
L
(
p
^
∣
∣
p
)
]
=
E
θ
∼
p
(
θ
∣
D
)
[
∑
i
=
1
K
p
^
i
log
(
p
^
i
p
i
)
]
,
(EKL)
\mathbb{E}_{\theta\sim p(\theta \vert D)}\left[KL(\hat{p}~||~p)\right] =\mathbb{E}_{\theta\sim p(\theta \vert D)}\left[\sum_{i=1}^K \hat{p}_i \log\left(\frac{\hat{p}_i}{p_i}\right)\right]~, \tag{EKL}
Eθ∼p(θ∣D)[KL(p^ ∣∣ p)]=Eθ∼p(θ∣D)[i=1∑Kp^ilog(pip^i)] ,(EKL)
它也可以被解释为对模型输出的不确定性的度量,因此代表了模型的不确定性。
预测方差评估了(随机)softmax输出的方差,即:
σ
(
p
)
=
E
θ
∼
p
(
θ
∣
D
)
[
(
p
−
p
^
)
2
]
.
(Sigma)
\sigma(p) = \mathbb{E}_{\theta\sim p(\theta\vert D)} \left[\left(p - \hat{p} \right)^2\right]~. \tag{Sigma}
σ(p)=Eθ∼p(θ∣D)[(p−p^)2] .(Sigma)
正如在不确定性量化方法章节中所描述的,只有贝叶斯方法的一个子集能给出后验分布
p
(
θ
∣
D
)
p(\theta\vert D)
p(θ∣D)一个解析描述。即使是一个解析描述的分布,参数不确定性在预测中的传播在几乎所有情况下都是难以处理的,必须用蒙特卡洛近似来逼近。类似地,集成方法从
M
M
M个神经网络获得预测,而测试时间数据增强方法从对原始输入样本的
M
M
M次不同增强中获得
M
M
M个预测。对于所有这些情况,我们收到一组
M
M
M样本,
{
p
i
}
i
=
1
M
\left\{p^i\right\} {i=1}^M
{pi}i=1M,它可以用来近似难以处理的甚至未定义的潜在分布。有了这些近似值,定义在
(
M
I
)
(MI)
(MI),
(
E
K
L
)
(EKL)
(EKL)和
(
S
i
g
m
a
)
(Sigma)
(Sigma)中的度量可以直接应用,只有期望必须用平均值替换。例如,softmax预期输出变为:
p
^
≈
1
M
∑
i
=
1
M
p
i
.
\hat{p} \approx \frac{1}{M}\sum_{i=1}^M p^i~.
p^≈M1i=1∑Mpi .
对于
(
M
I
)
(MI)
(MI),
(
E
K
L
)
(EKL)
(EKL)和
(
S
i
g
m
a
)
(Sigma)
(Sigma)中的期望,可以用类似的方法近似。
尽管这些不确定性度量被广泛用于捕捉来自贝叶斯神经网络、集合方法或测试时间数据增强方法的几种预测之间的可变性,但它们不能捕捉输入数据或分布外样本的分布偏移,这可能会导致有偏差的推断过程和错误的置信度。如果所有的预测都将一个高概率群体归为同一个(错误的)类标签,这就导致了估计之间的低可变性。因此,当预测本身的不确定性(由softmax概率给出)被评估为较低,网络似乎对其预测是确定的。为了解决这个问题,上篇中描述的几种方法考虑了logit的大小,因为logit越大,对应类的证据就越大。因此,这些方法要么将对数(指数)的总和解释为狄利克雷分布的精确值(见上篇对狄利克雷先验的描述),要么将其比作一个定义常数的证据集合。我们还可以通过对每个logit应用sigmoid函数来导出每个类的总概率。基于逐类的总概率,OOD样本更容易检测,因为所有类可以同时具有低概率。其他方法提供了一个明确的测量新数据样本适合训练数据分布的程度。在此基础上,他们还给出了一个样本将被正确预测的衡量标准。
虽然上面描述的测度是衡量单个预测的性能,但其他人也在一个样本集上评估这些测度的使用。不确定度的度量可以用来区分正确分类和错误分类的样本,或域内和分布外的样本。为此,将样本分为域内和分布外两个集合,或正确分类和错误分类。最常见的两种方法是受试者工作特征(ROC)曲线和精确召回(PR)曲线。这两种方法都是基于基础测量的不同阈值生成曲线。对于每一个考虑的阈值,ROC曲线绘制真阳率与假阳率的关系曲线,PR曲线绘制准确率与召回率的关系曲线。虽然ROC和PR曲线给出了一个可视化的概念,说明潜在的度量有多适合分离两个考虑的测试用例,但它们并没有给出一个定性的度量。为了达到这个目的,可以计算曲线下的面积(AUC)。粗略地说,AUC给出了一个概率值,即随机选择的正样本比随机选择的负样本产生更高的测度。例如,最大softmax值度量正确分类示例的排名高于错误分类示例。Hendrycks和Gimpel表明,在几个应用领域中,正确的预测通常比错误的预测具有更高的softmax值的预测确定性。特别是对于域内和非分布实例的评估,常用的方法是接受者操作曲线下面积(Area Under Receiver Operating Curve, AUROC)和精确召回曲线下面积(Area Under Precision Recall Curce, AUPRC)。这些评估的明显弱点是,性能的评估与最佳阈值的给定是基于测试数据集计算的。测试集分布的一个分布偏移可能会破坏整个性能,并使推出的阈值不切实际。
与分类任务(网络通常输出可能类别上的概率分布)相反,回归任务只预测点估计,没有任何数据不确定性的迹象。如前所述,克服这一问题的一种常见方法是让网络预测概率分布的参数,例如正态分布不确定性的均值向量和标准差。这样,就直接给出了数据不确定性的度量。对标准差的预测允许对(未知的)真实值的解析描述是在一个特定区域内。以概率
α
\alpha
α覆盖真实值的的区间(假设预测分布是正确的)由下式给出:
[
y
^
−
1
2
Φ
−
1
(
α
)
⋅
σ
;
y
^
+
1
2
Φ
−
1
(
α
)
⋅
σ
]
\left[\hat{y}-\frac{1}{2}\Phi^{-1}(\alpha)\cdot\sigma;\quad \hat{y}+\frac{1}{2}\Phi^{-1}(\alpha)\cdot\sigma\right]
[y^−21Φ−1(α)⋅σ;y^+21Φ−1(α)⋅σ]
其中
Φ
−
1
\Phi^{-1}
Φ−1是分位数函数,是累积概率函数的逆函数。对于给定的概率值
α
\alpha
α,分位数函数给出了一个边界,这样标准正态分布的概率质量的
100
⋅
α
%
100\cdot\alpha\%
100⋅α%在小于
Φ
−
1
(
α
)
\Phi^{-1}(\alpha)
Φ−1(α)的值上。分位数假定某种概率分布,并将给定的预测解释为分布的期望值。
与此相反,其他方法直接预测一个所谓的预测区间(PI)
P
I
(
x
)
=
[
B
l
,
B
u
]
PI(x) = \left[B_l, B_u\right]
PI(x)=[Bl,Bu]
假设预测位于该区间内。这样的间隔诱导的不确定性是没有一个具体预测的均匀分布。这种方法的确定性可以, 顾名思义,直接通过预测区间的大小来衡量。平均预测区间宽度 (MPIW)可以用来评估 模型的平均确定性。为了评估预测区间的正确性,可以应用预测区间覆盖概率(PICP)。PCIP表示测试预测落入预测区间的百分比,定义为:
PICP
=
c
n
,
\text{PICP}=\frac{c}{n}~,
PICP=nc ,
其中
n
n
n是预测的总数,
c
c
c是预测间隔实际捕获的真值的数量。
前面讲过,模型的不确定性主要是由模型的体系结构、训练过程以及训练数据中未被充分表示的区域引起的。因此,在模型不确定性的原因和影响上回归和分类任务没有本质的差异,所以模型回归任务的不确定性可以如已经描述的分类任务一样地测量 ,即在大多数情况下通过近似一个平均预测和测量单个预测之间的分歧。
分割中的不确定估计非常类似于分类任务。可以使用近似贝叶斯推断和测试时数据增广技术。在分割任务中,像素级的不确定度用置信度间隔、预测方差、预测熵、互信息等度量。整体的不确定性估计通过像素上的平均获得。整体不确定性的质量通过变化系数、平均dice分数或者交并比来评估。这些度量标准以两两方式衡量多个估计之间在重叠区域的一致性。理想情况下,一个错误的分割会导致像素级和整体不确定性的增加。为此,有人实验分析了不同不确定性阈值下筛选出的像素的真阳率、假阳率以及roc曲线。McClure等还分析了ROC曲线下的面积。
如果推导出的预测置信度能很好地近似于实际的正确概率,那么预测器就被称为经过良好校准的预测器。因此,为了使用不确定度量化方法,必须确保网络得到良好的校准。形式上,对于分类任务,一个神经网络
f
θ
f_\theta
fθ被校准,如果它满足:
∀
p
∈
[
0
,
1
]
:
∑
i
=
1
N
∑
k
=
1
K
y
i
,
k
⋅
I
{
f
θ
(
x
i
)
k
=
p
}
I
{
f
θ
(
x
i
)
k
=
p
}
→
N
→
∞
p
.
(cls)
\forall p \in [0,1]:\quad \sum_{i=1}^N \sum_{k=1}^K\frac{y_{i,k}\cdot\mathbb{I}\{f_\theta(x_i)_k=p\}}{\mathbb{I}\{f_\theta(x_i)_k=p\}} \xrightarrow[]{N \to \infty} p~. \tag{cls}
∀p∈[0,1]:i=1∑Nk=1∑KI{fθ(xi)k=p}yi,k⋅I{fθ(xi)k=p}N→∞
p .(cls)
在这里,
I
{
⋅
}
\mathbb{I}\{\cdot\}
I{⋅}是指示函数,如果条件是真,则为1,如果是假,则为0,
y
i
,
k
y_{i,k}
yi,k是训练样本
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi)的一个one-hot编码的groundtruth向量第
k
k
k个条目。这个公式意味着,例如,所有预测置信度为
70
%
70\%
70%的预测中
30
%
30\%
30%实际上应该是错误的。对于回归任务,校准可以定义为预测的置信区间应该与从数据集经验计算的置信区间相匹配,即,
∀
p
∈
[
0
,
1
]
:
∑
i
=
1
N
I
{
y
i
∈
conf
p
(
f
θ
(
x
i
)
)
}
N
→
N
→
∞
p
,
(rgs)
\forall p \in [0,1]:\quad \sum_{i=1}^N\frac{\mathbb{I}\left\{y_i\in \text{conf}_{p}(f_\theta(x_i))\right\}}{N} \xrightarrow[]{N \to \infty} p, \tag{rgs}
∀p∈[0,1]:i=1∑NNI{yi∈confp(fθ(xi))}N→∞
p,(rgs)
其中
conf
p
\text{conf}_p
confp是覆盖一个分布的
p
p
p百分比的置信区间。
如果
(
c
l
s
)
(cls)
(cls)和
(
r
g
s
)
(rgs)
(rgs)的左边大于p,则称DNN为不可信。同样,如果项小于p,则称DNN为不可信。DNN的校准特性可以用可靠性图来表示,如图8所示:
一般来说,校准误差是由模型不确定度相关因素引起的2。这在直觉上是很清楚的,因为正如在前面章节中讨论的,数据不确定性代表了输入x和目标y表示同一个真实世界信息的潜在不确定性。正确预测数据不确定性将导致一个完美校准的神经网络。在实践中,一些著作指出,更深层次的网络往往比浅层的网络更容易过度自信2。
前面章节中提出的几种不确定度估计方法也改进了网络校准3。这是很明显的,因为这些方法分别量化模型和数据的不确定性,并旨在减少模型对预测的不确定性。除了通过减少模型的不确定性来改进校准的方法外,越来越多的文献研究了显式降低校准误差的方法。以下介绍了这些方法,以及量化校准误差的测量。 值得注意的是,这些方法并没有减少模型的不确定性,而是将模型的不确定性传播到数据不确定性的表示上。例如,如果一个二进制分类器过度拟合,预测一个测试集的所有样本为a类,概率为1,而实际上有一半的测试样本是B类,那么重新校准方法可能会将网络输出映射到0.5,以获得可靠的置信度。这个概率0.5并不等同于数据的不确定性,而是表示模型的不确定性传播到预测的数据不确定性上。
根据应用时的步骤,校准方法可以分为三大类:
校准置信度的正则化方法通过修改目标函数或增加训练数据集控制dnn的训练。正则化方法的目标和思想与上篇中提出的方法非常相似,其中的方法主要是在一次前向传递中分别量化模型和数据的不确定性。然而,上篇中的方法量化了模型和数据的不确定性,而这些校准方法是正则化的,以最小化模型的不确定性。在推断时,不再得到模型的不确定性。这是我们区分下面提出的方法与上篇提出的方法的主要原因。一种流行的基于正则化的校准方法是标签平滑。对于标签平滑,通过取真类概率质量的一小部分并将其均匀地分配给假类来修改训练样本的标签。对于硬的、非光滑的标签,在实践中无法达到最优,因为输出相对于logit向量z的梯度
∇
z
CE
(
y
,
y
^
(
z
)
)
=
softmax
(
z
)
−
y
=
exp
(
z
)
∑
i
=
1
K
exp
(
z
i
)
−
y
,
\nabla_z \text{CE}(y, \hat y(z)) = \text{softmax}(z) - y \\ = \frac{\exp(z)}{\sum_{i=1}^K \exp(z_i)}-y~,
∇zCE(y,y^(z))=softmax(z)−y=∑i=1Kexp(zi)exp(z)−y ,
只能随着真类和假类的logit之间的距离的增加收敛到零。因此,正确类的对数要比错误类的对数大得多,而且错误类的对数之间可能有很大的差异。标签平滑避免了这一点,而它通常会导致更高的训练损失,校准误差减少,准确性往往也会增加。Seo等人扩展了标签平滑的思想,直接旨在降低模型的不确定性。为此,他们在训练时从随机神经网络采样T次前向通路。基于训练样本
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi)的
T
T
T次向前传递,我们推导出一个归一化模型方差
α
i
\alpha_i
αi作为
T
T
T个个体预测
y
^
1
,
…
,
y
^
T
\hat y_1,…,\hat y_T
y^1,…,y^T和平均预测
y
ˉ
=
1
T
∑
t
=
1
T
y
^
t
\bar y = \frac{1}{T}\sum_{t=1}^T\hat y_t
yˉ=T1∑t=1Ty^t之间的巴塔恰里亚系数的平均值,
α
i
=
1
T
∑
t
=
1
T
B
C
(
y
ˉ
i
,
y
^
i
,
t
)
=
1
T
∑
t
=
1
T
∑
k
=
1
K
y
ˉ
i
,
k
⋅
y
^
i
,
t
,
k
.
\alpha_i = \frac{1}{T}\sum_{t=1}^T BC(\bar y_i, \hat y_{i,t}) \\ =\frac{1}{T}\sum_{t=1}^T \sum_{k=1}^K \sqrt{\bar y_{i,k} \cdot \hat y_{i,t,k}}~.
αi=T1t=1∑TBC(yˉi,y^i,t)=T1t=1∑Tk=1∑Kyˉi,k⋅y^i,t,k
.
基于这个
α
i
\alpha_i
αi, Seo等人引入了方差加权信心集成损失函数,这是两个对比损失函数的凸组合,
L
VWCI
(
θ
)
=
−
∑
i
=
1
N
(
1
−
α
i
)
L
GT
(
i
)
(
θ
)
+
α
i
L
U
(
i
)
(
θ
)
,
L^{\text{VWCI}}(\theta)=-\sum_{i=1}^N(1-\alpha_i)L_{\text{GT}}^{(i)}(\theta) + \alpha_i L_{\text{U}}^{(i)}(\theta)~,
LVWCI(θ)=−i=1∑N(1−αi)LGT(i)(θ)+αiLU(i)(θ) ,
其中
L
GT
(
i
)
L_\text{GT}^{(i)}
LGT(i)是训练样本
x
i
x_i
xi与给定的真值
y
i
y_i
yi的交叉熵的平均值。
L
U
L_\text{U}
LU表示统一目标概率向量和计算预测之间的平均kl 散度。自适应平滑参数
α
i
{\alpha}_i
αi将模型不确定性高(由高方差给出)的训练样本的预测推向均匀分布,同时增加了模型不确定性低的样本的预测得分。因此,单个样本的预测方差减少,然后可以网络可以在推理时用一次前传。Pereyra等人通过向标准损失函数中加入负熵来解决过度自信问题,因此惩罚值随着网络的预测置信度增加而增加。由此得到基于熵的目标函数
L
H
L^H
LH,其定义为
L
H
(
θ
)
=
−
1
N
∑
i
=
1
N
y
i
log
y
^
i
−
α
i
H
(
y
^
i
)
,
L^H(\theta) = -\frac{1}{N} \sum_{i=1}^{N} y_i \log \hat{y}_i - \alpha_i H(\hat{y}_i)~,
LH(θ)=−N1i=1∑Nyilogy^i−αiH(y^i) ,
其中
H
(
y
^
i
)
H(\hat{y}_i)
H(y^i)是输出的熵,
α
i
\alpha_i
αi是一个参数,控制基于熵的置信惩罚的强度。参数
α
i
\alpha_i
αi的计算等价于VWCI损失。Thulasidasan等人没有通过修改目标函数来规范训练过程,而是通过使用一种名为mixup的数据无关数据增强技术来规范训练过程。在混合训练中,网络不仅在训练数据上训练,而且在两个随机训练对
(
x
i
,
y
i
)
(x_i, y_i)
(xi,yi)和
(
x
j
,
y
j
)
(x_j,y_j)
(xj,yj)的凸组合生成的虚拟训练样本
(
x
~
,
y
~
)
(\tilde{x}, \tilde{y})
(x~,y~)上训练,即
x
~
=
λ
x
i
+
(
1
−
λ
)
x
j
y
~
=
λ
y
i
+
(
1
−
λ
)
y
j
.
\tilde{x} = \lambda x_i + (1 - \lambda) x_j \\ \tilde{y} = \lambda y_i + (1 - \lambda) y_j~.
x~=λxi+(1−λ)xjy~=λyi+(1−λ)yj .
由mixup训练产生的标签平滑可以被视为一种基于熵的正则化形式,从而导致用mixup训练的网络的内在校准。Maronas等人认为mixup训练是最流行的数据增强正则化技术之一,因为它能够提高校准和精度。然而,他们认为在mixup训练中,mixup输入中的数据不确定性会影响校准,因此mixup不一定能改善校准。他们还根据经验强调了这一说法。同样,Rahaman和Thiery通过实验表明,由mixup训练等数据增强技术引起的分布偏移会对置信度校准产生负面影响。基于这一观察结果,Maronas等人提出了一种新的目标函数,该函数明确地考虑了对非mixup输入样本的校准性能。受预期校准误差(ECE)的启发,Naeini等人通过批精度和批样品的平均置信之间的可微分平方差来测量每个批b的mixup样本的校准性能。总损失是mixup样品和unmixup样品的原始损失的加权组合,且仅在unmixup样本上评估的校准测度:
L
E
C
E
(
θ
)
=
1
B
∑
b
∈
B
L
b
(
θ
)
+
β
E
C
E
b
,
L^{ECE}(\theta) = \frac{1}{B} \sum_{b \in B} L^b(\theta) + \beta ECE_b~,
LECE(θ)=B1b∈B∑Lb(θ)+βECEb ,
其中
L
b
(
θ
)
L^b(\theta)
Lb(θ)是用于训练的原始非正则化损失,mixed样本包含在批量
b
b
b中,
β
\beta
β是一个超参数,控制批处理期望校准误差
E
C
E
b
ECE_b
ECEb的相对重要性。通过将
b
∈
B
b \in B
b∈B的批量校准误差加到标准损失函数中,使混合训练引起的误校准得到正则化。在数据增强的背景下,Patel等人通过使用流形上数据增强4改进了不确定度估计的校准。mixup训练是对训练样本的组合,而流形上对抗训练则是利用对抗攻击生成域外样本。他们通过实验表明,在改进校准方面,流形上对抗训练优于混合训练。与此4相似,Hendrycks等人表明,在训练时给分布外的样本强加分类器有助于提高校准。
后处理(或post-hoc)方法在训练过程后应用,旨在学习一个重新校准函数。为此,训练数据的一个子集在训练过程中被保留并用作校准集。重新校准函数被应用到网络的输出(例如logit向量),并产生一个改进的校准学习的left-out校准集。Zhang等人讨论了post-hoc校准方法应满足的三个要求:
此外,他们指出,现有的任何方法都不能满足所有这三项要求。
对于分类任务,最基本但仍然非常有效的post-hoc校准方法是温度缩放。温度缩放,对softmax函数的温度
T
>
0
T>0
T>0进行优化
softmax
(
z
i
)
=
exp
z
i
/
T
∑
j
=
1
K
exp
z
j
/
T
.
\text{softmax}(z_i) = \frac{\exp^{z_i/T}}{\sum_{j=1}^K\exp^{z_j/T}}~.
softmax(zi)=∑j=1Kexpzj/Texpzi/T .
对于
T
=
1
T=1
T=1,函数仍然是常规的softmax函数。对于
T
>
1
T>1
T>1,输出变化使其熵增加,即预测置信度降低。对于
T
∈
(
0
,
1
)
T \in (0,1)
T∈(0,1)熵减小,预测置信度增加。如上所述,一个完美校准的神经网络输出MAP估计。由于学习的转换只能影响不确定性,基于对数似然的损失如交叉熵不需要被一个特殊的校准损失取代。给定数据效率和精度保持时,基本温度放缩的表达能力有限。为了克服这一点,Zhang等研究了几个温度缩放模型的集合。这样,他们实现了更好的校准预测,同时保持了分类精度,提高了数据效率和表达能力。Kull等人采用了非神经网络校准方法,在这种方法中,校准进行一对多的逐类别二进制校准。他们表明,这种方法可以解释为学习softmax函数后预测的对数似然的线性变换。这同样等价于在对数概率上训练一个密集层,因此该方法也非常容易实现和应用。显然,原始的预测并不能保证被保留。
类似于分类网络的温度放缩,Levi等人为回归网络引入了标准差放缩(std-scaling)。顾名思义,该方法被训练来调整给定网络的预测标准差。与交叉熵损失优化温度放缩的动机相同,标准差放缩可以使用高斯对数似然函数作为损失进行训练,这通常也用于回归网络的训练,这也可以对数据的不确定性进行预测。
Wenger等人提出了一种基于高斯过程(Gaussian process, GP)的方法,该方法可用于校准任何输出置信度值的多类分类器,并通过校准神经网络提出了他们的方法。他们工作的主要思想是通过一个高斯过程来学习校准映射,该过程是根据网络的置信度预测和留出校准集中相应的真值进行训练的。对于这种方法,原始预测的保留也不能保证。
如上所述,消除模型的不确定性并接收数据不确定性的准确估计,就可以得到一个校准良好的预测器。接下来的几项基于深度集成和BNNs的工作也将它们的性能与基于最终校准的其他方法进行了比较。Lakshminarayanan等人和Mehrtash等人报告了与单一网络相比,通过应用深度集成改进了校准性能。然而,Rahaman和Thiery表明,对于特定的配置,由于使用mixup-正则化,深度集成甚至会增加校准误差。另一方面,他们表明,在平均预测上应用温度标度可以显著改进校准。
对于贝叶斯方法,有方法表明,将贝叶斯近似限制在DNN最后一个全连接层的权值上已经足以显著改善校准。Zhang等人和Laves等人表明,用MC dropout计算的置信度估计可能难以校准。为了克服这一点,Zhang等人提出了结构化dropout,包括丢弃通道、块或层,以促进模型多样性和减少校准误差。
评估校准包括测量预测分布和观测之间的统计一致性。对于分类任务,一些校准测度是基于分箱的(binning)。为此,预测按预测置信度
p
^
i
\hat p_i
p^i排序,并分组到
M
M
M个bin
b
1
,
…
b
M
b_1,…b_M
b1,…bM。接下来,通过设置平均bin置信度来评估单个bin的校准
conf
(
b
m
)
=
1
∣
b
m
∣
∑
s
∈
b
m
p
^
s
\text{conf}(b_m)=\frac{1}{\vert b_m \vert} \sum_{s\in b_m}\hat{p}_s
conf(bm)=∣bm∣1s∈bm∑p^s
对于平均bin精度
acc
(
b
m
)
=
1
∣
b
m
∣
∑
s
∈
b
m
1
(
y
^
s
=
y
s
)
,
\text{acc}(b_m) = \frac{1}{\vert b_m \vert} \sum_{s \in b_m} \mathbf{1}(\hat{y}_s=y_s)~,
acc(bm)=∣bm∣1s∈bm∑1(y^s=ys) ,
其中
y
^
s
\hat{y}_s
y^s,
y
s
y_s
ys和
p
^
s
\hat{p}_s
p^s表示样本
s
s
s的预测和真实的类标签。正如有文献中所指出的,对于每个bin,
acc
(
b
m
)
=
conf
(
b
m
)
\text{acc}(b_m)=\text{conf}(b_m)
acc(bm)=conf(bm),置信度都经过良好的校准。为了对模型的校准进行直观的评价,有方法引入的可靠性图被广泛使用。对于一个可靠性图,
conf
(
b
m
)
\text{conf}(b_m)
conf(bm)被绘制在
acc
(
b
m
)
\text{acc}(b_m)
acc(bm)上。对于一个校准良好的模型,图应该靠近对角线,如图8所示。基本的可靠性图可视化不区分不同的类。为了做到这一点,从而提高校准误差的可解释性,Vaicenavicius等人使用了另一种可视化方法——多维可靠性图。
为了定量评价一个模型的校准,可以考虑不同的校准措施。
预期校准误差(ECE)是一种广泛使用的基于分箱的校准测量。对于ECE,
M
M
M等距箱
b
1
,
…
,
b
M
b_1,…,b_M
b1,…,bM,其中
b
M
b_M
bM表示置信度落入区间
I
M
=
]
m
−
1
M
,
m
M
]
I_M =]\frac{m -1}{M},\frac{m}{M}]
IM=]Mm−1,Mm]的样本索引集。然后,ECE作为逐bin校准误差的加权平均值计算,即:
ECE
=
∑
m
=
1
M
∣
b
m
∣
N
∣
acc
(
b
m
)
−
conf
(
b
m
)
∣
.
\text{ECE} = \sum_{m=1}^{M}\frac{\vert b_m \vert}{N}\vert \text{acc}(b_m)-\text{conf}(b_m)\vert~.
ECE=m=1∑MN∣bm∣∣acc(bm)−conf(bm)∣ .
对于ECE,只考虑预测置信度得分(top-label)。与此相反,静态校准误差(SCE)考虑了所有类(all -labels)的预测。对于每个类,SCE计算箱内的校准误差,然后所有箱平均,即:
SCE
=
1
K
∑
k
=
1
K
∑
m
=
1
M
∣
b
m
k
∣
N
∣
conf
(
b
m
k
)
−
acc
(
b
m
k
)
∣
.
\text{SCE} = \frac{1}{K} \sum_{k=1}^{K} \sum_{m=1}^{M} \frac{\vert b_{m_k} \vert}{N} \vert \text{conf}(b_{m_k})-\text{acc}(b_{m_k}) \vert~.
SCE=K1k=1∑Km=1∑MN∣bmk∣∣conf(bmk)−acc(bmk)∣ .
其中
c
o
n
f
(
b
m
k
)
conf(b_{m_k})
conf(bmk)和
a
c
c
(
b
m
k
)
acc(b_{m_k})
acc(bmk)分别是类别标签
k
k
k的bin
b
m
b_m
bm的置信度和准确率。Nixon等人实验表明,像SCE这样的全标签校准措施在评估校准误差方面比像ECE这样的顶标签校准措施更有效。
与ECE和SCE不同的是,ECE和SCE是将预测分组到M个等间距的容器中(这通常会导致每个容器中评估样本的数量不同),自适应校准误差自适应地将预测分组到R个宽度不同但预测数量相同的容器中。有了这种自适应的容器尺寸,自适应的预期校准误差(aECE)
aECE
=
1
R
∑
r
=
1
R
∣
conf
(
b
r
)
−
acc
(
b
r
)
∣
,
\text{aECE} = \frac{1}{R}\sum_{r=1}^{R} \vert \text{conf}(b_r) - \text{acc}(b_r) \vert~,
aECE=R1r=1∑R∣conf(br)−acc(br)∣ ,
以及静态校准误差:
aSCE
=
1
K
R
∑
k
=
1
K
∑
r
=
1
R
∣
conf
(
b
r
k
)
−
acc
(
b
r
k
)
∣
\text{aSCE} = \frac{1}{K R} \sum_{k=1}^{K} \sum_{r=1}^{R} \vert \text{conf}(b_{r_k})-\text{acc}(b_{r_k}) \vert
aSCE=KR1k=1∑Kr=1∑R∣conf(brk)−acc(brk)∣
被定义为ECE和SCE的拓展。实验表明,自适应分箱校准措施aECE和aSCE比相应的等宽分箱校准措施ECE和SCE对箱数的鲁棒性更强 。
在多类设置中,重要的是要明确校准措施可能会受到测试数据不平衡的影响。即使那时的校准是逐类计算,计算的误差是各类别样本数量的加权。而较大的类可能会对较小的类产生不好的校准,分类任务中的精度值接近。
在本节中,我们收集了常用的任务和数据集,用于评估现有工作的不确定性估计。此外,还介绍了各种常用的基线方法,以与研究人员提出的方法进行比较。研究者和实践者都能从中受益。前者可以对最近的基准任务、数据集和基线有一个基本的了解,以便他们可以设计适当的实验来更有效地验证他们的想法,而后者可以使用提供的信息,根据对方法已被验证的任务和数据集的简明概述,选择更相关的方法开始。
在下面,我们将介绍表4中总结的数据集和基线,根据本文使用的分类法。
我们将每个类别的方法分成四个块之一,并分别为每个列提取最常用的任务、数据集和提供的基线。注意,这里我们关注的是方法的比较,而不是对性能产生影响的不同方法的体系结构选择。由于篇幅和视觉密度的限制,在我们所研究的文献中,我们只显示最重要的元素(任务、数据集、基线),按照使用频率排序。
主要结果如下:评估不确定性估计方法最常见的任务之一是回归任务,其中对离训练分布近和远的样本进行研究。此外,在分类问题中,不确定度估计的校准也经常被研究。进一步值得注意的任务是out - distribute (OOD)检测和对抗攻击的鲁棒性。在医学领域,语义分割结果的校准是主要的用例。
在所有被评审的工作中,数据集的选择基本一致。回归时,玩具数据集用于不确定区间的可视化,UCI数据集采用(负)对数似然比较方法进行研究。最常见的校准和OOD检测数据集是MNIST、CIFAR10和100以及SVHN,而ImageNet及其微小变体也经常被研究。当研究OOD检测时,形成不同的pair,其中在CIFAR变体上训练的模型在SVHN上评估,反之亦然当MNIST与自身的变体配对,如notMNIST和FashionMNIST时。分类数据集通常也被扭曲和损坏,以研究校准的影响,模糊了OOD检测和对抗攻击之间的界限。
最后,目前最常用的基线是Monte Carlo (MC) Dropout和deep ensemble,而确定性模型的softmax输出几乎总是作为一种替代基线。值得注意的是,在每种方法中——bnn、ensemble、Single Deterministic Models和Input augmentation—有些基线比其他的更受欢迎。bnn最常与变分推断方法进行比较,如贝叶斯的Backprop (BBB) 或概率反向传播(PBP),而对于单确定性模型,在OOD检测的情况下,更常见的是将它们与基于距离的方法进行比较。总的来说, BNN方法显示了一个更加多样化的任务集 ,而在像 ImageNet这样的大型数据集上评估的频率较低。
这里给出一些可用实现的链接。
从实际的角度来看,量化dnn的不确定性的主要动机是能够对接收到的预测进行分类,并做出更有信心的决定。本节给出了上述动机的简要概述和示例。在第一部分中,我们讨论了不确定性在主动学习和强化学习中的应用。随后,我们讨论了在医学图像分析、机器人和地球观测等领域工作的业界兴趣点。这些应用领域代表性地应用于不确定度量化起重要作用的大量领域。挑战和概念可以(也应该)转移到任何感兴趣的应用领域。
随着深度学习方法在许多不同领域的越来越多的使用,量化和处理不确定性变得越来越重要。一方面,不确定性量化在风险最小化方面发挥着重要作用,这是许多应用领域所需要的。另一方面,许多领域只提供具有挑战性的数据源,难以控制和验证。这使得生成可信的真值成为一项非常具有挑战性的任务。接下来,我们将介绍三个不同领域中不确定性的重要作用,分别是自动驾驶、医学图像分析和地球观测。
医学分析
由于许多疾病的大小、形状和位置在不同的患者中有很大的差异,预测不确定性的估计在分析医学图像的应用中至关重要,例如病变检测,肺淋巴结分割,脑肿瘤分割,疟疾肝期图像中的寄生虫分割,胸片异常识别,以及年龄估计。在这里,不确定性估计尤其提高了dnn决策的可解释性。它们对于理解分割结果的可靠性、检测虚假分割区域以及指导人工专家进行细化工作至关重要。校准良好且可靠的不确定度估计使临床专家能够正确地判断自动诊断是否可信。医学图像分割中基于蒙特卡洛dropout , spikeand slab dropout和空间dropout估计不确定性。Wang等使用测试时数据增强来估计医学图像分割中数据依赖的不确定性。
机器人学
机器人是活跃的主体,它们在现实世界中感知、决定、计划和行动——所有这些都是基于它们对世界的不完全知识。因此,机器人的失误不仅会导致自身任务的失败,还会危及人类的生命,例如外科手术机器人、自动驾驶汽车、空间机器人等。因此,深度学习的机器人应用带来了独特的研究挑战,这与通常在计算机视觉和其他离线设置中解决的问题有很大不同。例如,假设测试条件和训练条件来自相同的分布,在机器人的许多设置中往往是无效的,导致dnn在不受控制和不利的条件下性能下降。这就提出了一个问题,我们如何量化DNN预测中的不确定性,以避免灾难性的故障。回答这些问题在机器人技术中很重要,因为期望数据驱动的方法(从控制到感知的许多方面)总是准确是一个崇高的目标。相反,关于不确定性的推理可以帮助利用机器人深度学习方面的最新进展。
甚至在深度学习出现之前,对不确定性的推理和概率表示的使用,就已经成为机器人研究的许多领域的核心,而不是依赖于单一的最有可能的估计。在机器人感知方面,过去已经提出了几种不确定性感知方法,从定位方法到同时定位和映射(simultaneous localization and mapping, SLAM)框架。因此,因子图等许多概率方法现在成为了机器人真空吸尘器、无人机等先进消费产品的主力。在规划和控制中,估计问题被广泛地视为贝叶斯序列学习问题,而序列决策框架,如pomdp假设对基础规划问题进行概率处理。有了概率表示,许多强化学习算法都得到了在现实世界中安全交互的稳定性保证。最后,也有一些进展,从推理(语义到与几何的联合推理)、实施(如主动感知)到学习(如主动学习和识别未知对象)。Peretroukhin等人开发了一种SO(3)表示和不确定性估计框架,用于具有不确定性的旋转学习问题。一些展示了机器人强化学习算法的不确定性有关的真实世界应用,而有些方法提出在MC-dropout之上利用空间信息。一些方法开发了基于深度学习的带有不确定性估计的定位系统。其他的方法也可以从机器人过去的失败经验中学习,或者检测到预测器的不一致性。综上所述,机器人社区既是针对特定问题的不确定性估计框架的用户,也是开发人员。
然而,机器人技术给dnn的不确定性估计方法带来了一些独特的挑战。例如,(i)如何限制计算负担,并建立能够在计算能力有限的机器人(如空中、空间机器人等)上执行的实时方法;(ii)如何利用空间和时间信息,因为机器人是顺序感知的,而不是使用一批训练数据进行不确定性估计;(iii)机器人是否能够选择最不确定的样本并在线更新学习器;(iv)机器人是否能够在不确定的情况下有目的地操纵场景。这些挑战大多源于机器人的物理位置系统的特性。
地球观测(EO)
地球观测(EO)系统越来越多地用于与城市规划、资源管理、灾害响应等相关的关键决策。现在,太空中有数百颗EO卫星,由不同的太空机构和私人公司拥有。图12显示了欧洲航天局(ESA)拥有的卫星。与许多其他领域一样,在过去几年里,深度学习在EO领域取得了巨大的初步成功。
图12.欧洲航天局(ESA)发展地球观测任务
这些早期的成功包括采用计算机视觉中深度学习的最新发展,并将其应用于小型地球观测数据集。与此同时,基础数据非常具有挑战性。尽管数据量很大,但数据的可变性也很大。这种变化是由不同的传感器类型、空间变化(如不同的区域和分辨率)和时间变化(如变化的光照条件、天气条件、季节)引起的。对于如此大量的数据,除了有效的不确定性量化方法的挑战之外,EO领域还存在着几个可以用不确定性量化来解决的挑战。总之,许多EO应用的敏感性,以及EO系统的性质和具有挑战性的EO数据,使不确定性的量化在这一领域非常重要。尽管在过去的几年里有数百篇关于EO的DL的文献,但是关于测量这些系统的不确定性的文献范围相对较小。
此外,由于数据变化较大,测试时收到的数据样本往往不包含在训练数据分布中。例如,在为当地气候区的分类准备训练数据时,人类专家可能只会看到没有障碍物和建筑物清晰可见的图像。当一个基于该数据集训练的模型部署在现实世界中时,它可能会看到云层挡住了建筑物或下雪而给它们一个完全不同外观的图像。此外,EO数据中的类可以有非常广泛的分布。例如,世界上有数百万种类型的房子,没有任何训练数据可以包含所有这些类型的例子。问题是OOD检测器将在哪里划清界限,并将相应的房屋声明为OOD。因此,OOD探测在对地观测中占有重要的地位,不确定度测量在其中起着重要的作用。
不确定性在EO中扮演重要角色的另一个常见任务是数据融合。光学图像通常只包含少数几个通道,比如RGB。与此相反,EO数据可以包含多达数百个通道的光学图像,以及各种不同的传感器,它们具有不同的空间、时间和语义属性。融合来自这些不同来源和渠道的信息将不同来源的不确定性传播到预测中。所面临的挑战在于研发的方法,不仅要量化不确定性,而且要量化来自不同渠道的单独贡献量,并且要学会为一个给定定样本聚焦可信的数据源。
与普通的计算机视觉场景(图像采集设备离目标物很近 )不同,EO 卫星距离拍摄对象有数百公里远。传感器的灵敏度、大气吸收 特性和地表反射率特性都导致了获取数据的不确定性。集成物理EO系统的知识 ,其中也包含关于这些系统中不确定性模型的信息,这是另一个主要的开放问题。然而,对于光电工程中的一些应用来说,测量不确定度不仅是一件好事,而且是该领域的一个重要要求。例如,由EO数据导出的地理变量可以同化为过程模型(海洋、水文、天气、气候等),同化需要估计变量的概率分布。
“Understanding measures of uncertainty for adversarial example detection”.UAI 2018. ↩︎ ↩︎ ↩︎
“Simple and scalable predictive uncertainty estimation using deep ensembles". nips 2017. ↩︎
“On-manifold adversarial data augmentation improves uncertainty calibration”.ICPR2020. ↩︎ ↩︎
“Active learning literature survey”.2009. ↩︎
“Bayesian reinforcement learning: A survey”.FTML2015. ↩︎
“Evaluating scalable bayesian deep learning methods for robust computer vision”.CVPR 2020 workshops. ↩︎
“Uncertainty baselines: Benchmarks for uncertainty & robustness in deep learning”.arXiv:2106.04015, 2021. ↩︎
“Getting a clue: A method for explaining uncertainty estimates”.ICLR2021. ↩︎
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。