赞
踩
看了挺多长尾分布的论文,从中获益匪浅,长尾分布的问题并不仅仅只局限于早期的分类问题之中,而是广泛存在于深度学习的多项任务之中。接下来一系列的文章将会去介绍近年来几篇典型的研究长尾分布的论文,这些论文也来自于不同的领域,足见长尾分布的普遍性。
首先给长尾分布下一个不那么严谨的定义,长尾分布指的是数据集中的多数样本只覆盖了一小部分的类别, 而其他类别的样本只占据了总体的一小部分,表现出现了样本数量在类别上的不均衡。而更进一步的,长尾分布的的概念也可以扩充到回归问题上,比如在年龄预测问题上,一般我们都是将其作为回归问题来考量,而年龄分布也具有着长尾分布的特性,年龄处于中值的青壮年占人口的大部分,而年龄偏小的老幼只占小部分。
长尾分布带来的问题也十分的直观,网络训练过程中会更加倾向于向着多数样本的方向适应,而在少数样本上则会有些水土不服。
本篇所涉及到的论文为:
分类问题中的长尾分布问题也是被研究人员关注最多的问题,目前已经有了许多的应对方法,大体上可以划分为以下三个方向:
而在Decoupling Representation and Classifier for Long-Tailed Recognition一文中,作者主要是对第一个方向的解法进行了思考,同时提出了一种新的解决策略–将特征提取器和分类器的训练过程解耦,主要结论如下:
首先作者给出了长尾分布问题中主流采样策略进行的统一规范化表示:
p
j
=
n
j
q
∑
i
=
1
C
n
i
q
p_j=\frac{n^q_j}{\sum_{i=1}^C n^q_i}
pj=∑i=1Cniqnjq
其中
p
j
p_j
pj为抽取到类别
j
j
j中的概率,
C
C
C为总的类别数目,
n
i
n_i
ni为第
i
i
i类样本的数目。当
q
=
0
,
1
,
1
/
2
q=0,1,1/2
q=0,1,1/2时,分别对应于类别均等采样、样本均等采样(也就是不调整)、方根采样。此外,还有在此基础上将多策略融合的“渐进平衡采样”:
p
j
P
B
(
t
)
=
(
1
−
t
T
)
p
j
I
B
+
t
T
p
j
C
B
p_j^{PB}(t)=(1-\frac{t}{T})p_j^{IB}+\frac{t}{T}p_j^{CB}
pjPB(t)=(1−Tt)pjIB+TtpjCB
每个样本的采样概率为类别均等采样和样本均等采样的加权和,且逐渐趋向于类别均等采样。
作者认为在长尾识别问题中,将特征表征和分类器解耦训练是很有用的,具体而言就是先对网络整体进行联合训练,再冻住特征学习骨干网络,单独训练分类器。而分类器的训练方法又有以下几种:
实验在样本类别均衡的测试集上进行,结果汇报时分成了多数样本、一般数目样本、少数样本和总体来汇报。先在不同的采样策略下联合训练90个epoch,再使用解耦训练的方法单独调整分类器。结果如下图所示:
总体上来看,从采样策略上来看,在联合训练的情况下,好的采样策略确实可以使得预测准确率上升。而在大多数的情况下,解耦训练比联合训练取得了更好的效果。(渐进式训练策略和类别均等采样策略基本没有获益)。最有意思的结果是,所有的方法组合中,样本均等采样+解耦训练取得了最好的效果,这似乎表明说类别的不均衡并不会对特征学习的过程产生影响,我们要调整的只是分类器。
此外,作者从决策边界的角度对解耦训练中的方法进行了理论上的解释,如下图可以看出,当不进行解耦训练的时候,随着样本数目的减少,对应类别分类器权重
w
i
w_i
wi的模是在减少的,而解耦训练中的方法则是抑制了这一趋势,使得不同类的分离器权重模值趋于平衡。
而权重对于决策边界的影响则可从下图得到:
τ = 1 \tau=1 τ=1的 τ \tau τ-noramalized方法和使用余弦距离、欧几里得距离的NCM方法都会有着更加均衡的边界,不会使得少数类别的判定过于严格。
这篇论文算是对回归任务中的长尾分布做了一个总结性质的梳理,对采样策略这一脉的方法进行了深度的思考,并且给出了较为颠覆性的结论。此外,提供了一个新的解决思路,即特征提取和分类解耦合。文中关于决策边界和类别分布不均匀的考量同样值得玩味。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。