赞
踩
A Comprehensive Survey on Transfer Learning
迁移学习的目标是利用来自相关领域(称为源领域)的知识,以提高学习性能或最小化目标领域中需要的标记示例的数量。知识转移并不总是对新任务产生积极的影响。如果领域之间几乎没有共同之处,知识转移可能不成功。例如,学习骑自行车并不能帮助我们更快地学习弹钢琴。以往的经验对学习新任务有负面影响的现象被称为负迁移。在迁移学习领域,如果目标学习者受到迁移知识的负面影响,这种现象也称为负迁移。负迁移是否会发生可能取决于几个因素,如源领域和目标领域之间的相关性,以及学习者发现跨领域知识的可迁移和有益部分的能力。
根据域之间的差异,转移学习可以进一步分为两类,即学习同质迁移和异质迁移。同质迁移学习方法被开发和提出来处理域具有相同特征空间的情况。在同质迁移学习中,一些研究假设领域只在边缘分布上存在差异。因此,他们通过修正样本选择偏差或协变量偏移。异质迁移学习是指领域具有不同特征空间情况下的知识迁移过程。除了分布适应外,异质性迁移学习还需要特征空间适应。
2.1半监督学习(Semi-Supervised Learning):半监督学习是一种机器学习任务和方法,介于监督学习(完全标记的实例)和非监督学习(没有任何标记的实例)之间。通常,半监督方法利用大量的未标记实例和有限数量的标记实例来训练学习者。半监督学习放松了对标记实例的依赖,从而降低了昂贵的标记成本。注意,在半监督学习中,标记的和未标记的实例都来自同一个分布。相反,在迁移学习中,源域和目标域的数据分布通常是不同的。许多迁移学习方法吸收了半监督学习技术。半监督学习中的关键假设,即平滑性、聚类和流形假设,也被用于迁移学习。
2.2多视角学习(Multi-View Learning)/域自适应(Domain Adaptation):一个视角代表一个不同的特征集。关于多个视图的一个直观的例子是,一个视频对象可以从两个不同的视点描述,即,图像信号和音频信号。简单地说,多视图学习是从多个视图来描述一个对象,从而得到丰富的信息。通过适当地从各个角度考虑信息,学习者的表现可以得到提高。在多视角学习中,主要采用子空间学习、多核学习和联合训练等策略。在一些迁移学习方法中也采用了多视图技术。
2.3多任务学习(Multi-Task Learning):多任务学习的思想是共同学习一组相关的任务。更具体地说,多任务学习通过利用任务之间的相互联系来强化每个任务,即同时考虑任务间的相关性和任务间的相关性的区别。这样,增强了每个任务的泛化。迁移学习与多任务学习的主要区别在于前者迁移相关领域所包含的知识,后者通过同时学习一些相关的任务进行知识的迁移。换句话说,多任务学习对每个任务的关注是均等的,而迁移学习对目标任务的关注多于对源任务的关注。迁移学习与多任务学习之间存在着一些共性和关联性。两者都旨在通过知识迁移来提高学习者的学习成绩。采用一些相似的模型构建策略,如特征变换和参数共享。值得注意的是,一些现有的研究同时利用了迁移学习和多任务学习技术。
参考《迁移学习(一)》
在上述基础上引入了多源域和多目标域,即:
{
(
D
S
I
,
T
S
i
)
∣
i
=
1
,
.
.
.
,
m
S
}
a
n
d
{
(
D
T
I
,
T
T
i
)
∣
i
=
1
,
.
.
.
,
m
T
}
\{(D_{S_I},T_{S_i})|i=1,...,m^S\} \space \space and \space \space\{(D_{T_I},T_{T_i})|i=1,...,m^T\}
{(DSI,TSi)∣i=1,...,mS} and {(DTI,TTi)∣i=1,...,mT}
迁移学习要学习的目标函数为:
f
T
j
(
j
=
1
,
.
.
.
,
m
T
)
f^{T_j}(j=1,...,m^T)
fTj(j=1,...,mT)
迁移学习领域常用的另一个术语是领域适应。领域适应是指通过调整一个或多个源领域来转移知识,从而提高目标学习者[4]的学习性能的过程。迁移学习往往依赖于领域适应过程,试图减少领域之间的差异。
详细配置参考《迁移学习(一)》
在上述基础上,总结分类如下:
(1)从问题角度
(2)从解决方法角度
这篇文章从数据和模型两个方面分类,基于数据的迁移方法包括了上述基于实例的迁移学习方法和基于特征的迁移学习方法。基于模型的涵盖了上述基于参数的方法。
主要目的是通过实例加权和特征转换来减少源域和目标域实例之间的分配差异。
5.1实例加权
让我们首先考虑一个简单的场景,其中有大量标记的源域和有限数量的目标域实例可用,域只在边缘分布中不同(
P
S
(
X
)
≠
P
T
(
X
)
和
P
S
(
Y
∣
X
)
=
P
T
(
Y
∣
X
)
)
P^S(X) \not= P^T(X)和P^S(Y|X) = P^T(Y|X))
PS(X)=PT(X)和PS(Y∣X)=PT(Y∣X))。
E
(
x
,
y
)
∼
P
T
[
L
(
x
,
y
;
f
)
]
=
E
(
x
,
y
)
∼
P
S
[
P
T
(
x
,
y
)
P
S
(
x
,
y
)
L
(
x
,
y
;
f
)
]
=
E
(
x
,
y
)
∼
P
S
[
P
T
(
x
)
P
S
(
X
)
L
(
x
,
y
;
f
)
]
E_{(x,y)}\sim P^T[\mathcal{L}(x,y;f)] =E_{(x,y)}\sim P^S[\cfrac{P^T(x,y)}{P^S(x,y)}\mathcal{L}(x,y;f)] \\=E(x,y)\sim P^S[\cfrac{P^T(x)}{P^S(X)}\mathcal{L}(x,y;f)]
E(x,y)∼PT[L(x,y;f)]=E(x,y)∼PS[PS(x,y)PT(x,y)L(x,y;f)]=E(x,y)∼PS[PS(X)PT(x)L(x,y;f)]
m
i
n
f
1
n
S
∑
i
=
1
n
S
β
i
L
(
f
(
x
i
S
)
,
y
i
S
)
+
Ω
(
f
)
min_f\cfrac{1}{n^S}\sum_{i=1}^{n^S}\beta _i \mathcal{L}(f(x_i^S),y_i^S)+\Omega(f)
minfnS1i=1∑nSβiL(f(xiS),yiS)+Ω(f)
β
i
(
i
=
1
,
.
.
.
,
n
S
)
\beta_i(i=1,...,n^S)
βi(i=1,...,nS)就是权重参数。
实例加权:为源域实例分配权值,以减少边际分布差异,类似于KMM
域加权:根据平滑性假设,为每个源域分配权值,以减少条件分布差异
5.1.2在TrAdaBoost中,将标记的源域实例和标记的目标域实例组合成一个整体,即一个训练集,训练弱分类器。对于源域和目标域实例,加权操作是不同的。在每次迭代中,计算一个临时变量δ,该变量测量标记的目标域实例的分类错误率。然后,根据δ和个体分类结果更新目标域实例的权值,根据设计的常数和个体分类结果更新源域实例的权值。为了更好地理解,重复给出第k次迭代(k
= 1,···,N)中更新权值的公式如下
β
k
,
i
S
=
β
k
−
1
,
i
S
(
1
+
2
l
n
n
S
N
)
−
∣
f
k
(
x
i
S
)
−
y
i
S
∣
(
i
=
1
,
.
.
.
,
n
S
)
,
β
k
,
j
T
=
β
k
−
1
,
j
T
(
δ
ˉ
/
(
1
−
δ
ˉ
)
)
−
∣
f
k
(
x
j
T
)
−
y
j
T
∣
(
j
=
1
,
.
.
.
,
n
T
)
,
\beta _{k,i}^S=\beta _{k-1,i}^S(1+\sqrt{2ln \cfrac{n^S}{N}})-|f_k(x_i^S)-y_i^S|(i=1,...,n^S),\\ \beta _{k,j}^T=\beta _{k-1,j}^T(\bar\delta/(1-\bar\delta))-|f_k(x_j^T)-y_j^T|(j=1,...,n^T),
βk,iS=βk−1,iS(1+2lnNnS
)−∣fk(xiS)−yiS∣(i=1,...,nS),βk,jT=βk−1,jT(δˉ/(1−δˉ))−∣fk(xjT)−yjT∣(j=1,...,nT),每次迭代形成一个新的弱分类器。最后的分类器是通过投票的方式将新产生的弱分类器的总数的一半。
5.1.3 Yao和Doretto[33]提出了一种多源TrAdaBoost(MsTrAdaBoost)算法,该算法在每次迭代中主要有以下两个步骤。
候选分类器构造:在每个源域和目标域成对的加权实例上分别训练一组候选弱分类器
实例权重:选择目标域实例上分类错误率最小的实例用于更新Ds和Dt中实例的权值。
以下实例类型用于构造目标分类器
5.2特征转换
分类器使用来自相关领域的标记文本数据。在这个场景中,一种可行的解决方案是通过特征变换找到共同的潜在特征,并将其作为传递知识的桥梁。基于特征的方法将每个原始特征转化为新的特征表示,进行知识转移。构造新特征表示的目标包括最小化边缘和条件分布差异,保留数据的属性或潜在结构,以及找到特征之间的对应关系。特征变换的操作可以分为三种类型,即特征增强、特征缩减和特征对齐。
\space \space \space
5.2.1分布差异度量
如何有效地度量域间的分布差异或相似度
最大均值差异(Maximum Mean difference, MMD)(KLD、JSD、BD、HSIC)
M
M
D
(
X
S
,
X
T
)
=
∥
1
n
S
∑
i
=
1
n
S
Φ
(
x
i
S
)
−
1
n
T
∑
j
=
1
n
T
Φ
(
x
j
T
)
∥
H
2
MMD(X^S,X^T)=
PS:上面提到的KMM实际上通过最小化域之间的MMD距离来生成实例的权重
\space \space \space
5.2.2特征增强
特征增强操作广泛应用于特征变换,尤其是基于对称特征的方法。具体来说,实现特征增强的方法有特征复制、特征叠加等。
Daume的工作提出了一种简单的域自适应方法,即特征增强法(FAM)。该方法通过简单的特征复制对原始特征进行变换。在单源迁移学习场景下,将特征空间扩大到原来的三倍。新的特征表示由一般特征、特定于源的特征和特定于目标的特征组成。注意,对于转换后的源域实例,它们特定于目标域的特征被设置为零。类似地,对于转换后的目标域实例,它们特定于源域的特征被设置为零。FAM的新特征表示如下
Φ
S
(
x
i
S
)
=
<
x
i
S
,
x
i
S
,
0
>
,
Φ
T
(
x
j
T
)
=
<
x
j
T
,
0
,
x
j
T
>
\Phi_S(x_i^S)=<x_i^S,x_i^S,0>,\Phi_T(x_j^T)=<x_j^T,0,x_j^T>
ΦS(xiS)=<xiS,xiS,0>,ΦT(xjT)=<xjT,0,xjT>
其中
Φ
S
\Phi_S
ΦS和
Φ
T
\Phi_T
ΦT表示源域和目标域到新特征空间的映射.最后的分类器将根据转换后的标记实例进行训练。值得一提的是,这种增广方法实际上是冗余的。换句话说,以其他方式(用更少的维度)扩展特性空间可能能够产生合格的性能。FAM算法的优点是其特征扩展形式优雅,具有多源场景下的泛化等优点。
FAM可能不能很好地处理异构迁移学习任务。这是因为当源域和目标域具有不同的特征表示形式时,直接复制特征和填充零向量的效果较差。为了解决这一问题,Li等人提出了一种称为异构特征增强(HFA)的方法。HFA的特征表示如下:
Φ
S
(
x
i
S
)
=
<
W
S
x
i
S
,
x
i
S
,
0
T
>
,
Φ
T
(
x
j
T
)
=
<
W
T
x
j
T
,
0
S
,
x
j
T
>
\Phi_S(x_i^S)=<W^Sx_i^S,x_i^S,0^T>,\Phi_T(x_j^T)=<W^Tx_j^T,0^S,x_j^T>
ΦS(xiS)=<WSxiS,xiS,0T>,ΦT(xjT)=<WTxjT,0S,xjT>HFA将原始特征映射到一个共同的特征空间,然后进行特征叠加操作。映射的特征、原始特征和零元素以特定的顺序堆叠以产生新的特征表示。
\space \space \space
5.2.3特征映射
在传统的机器学习领域,有很多可行的基于映射的特征提取方法,如主成分分析(PCA)和核化PCA (KPCA)。然而,这些方法主要关注的是数据方差,而不是分布差异。迁移学习中也提出了很多基于特征映射的学习方法,让我们首先考虑一个简单的场景,其中域的条件分布没有什么区别。在这种情况下,可以使用以下简单的目标函数来查找用于特征提取的映射。
m
i
n
Φ
(
D
I
S
T
(
X
S
,
X
T
;
Φ
)
+
λ
Ω
(
Φ
)
)
/
(
V
A
R
(
X
S
∪
X
T
;
Φ
)
)
min_\Phi(DIST(X^S,X^T;\Phi)+\lambda \Omega(\Phi))/(VAR(X^S\cup X^T;\Phi))
minΦ(DIST(XS,XT;Φ)+λΩ(Φ))/(VAR(XS∪XT;Φ))
Φ
\Phi
Φ是低维特征映射函数,
D
I
S
T
(
⋅
)
DIST(\cdot)
DIST(⋅)表示分布之间的度量函数,
Ω
(
Φ
)
\Omega(\Phi)
Ω(Φ)是正则项,
V
A
R
(
⋅
)
VAR(\cdot)
VAR(⋅)是实例的方差。
该目标函数的目标是找到一个映射函数
Φ
\Phi
Φ,使域间的边缘分布差异最小化,同时使实例的方差尽可能大。分母对应的目标可以通过几种方式进行优化。一种可能的方法是用方差约束优化分子的目标。例如,可以将映射实例的分散矩阵强制为一个单位矩阵。另一种方法是先在高维特征空间中优化分子目标。然后,可以采用PCA或KPCA等降维算法来实现分母的目标。
\space \space \space
找到
Φ
(
⋅
)
\Phi (\cdot)
Φ(⋅)的显式公式也不是件容易的事。为了解决这一问题,一些方法采用线性映射技术或转向核技巧。一般来说,处理上述优化问题主要有三种思路:
(映射学习+特征提取)一种可能的方法是通过解决核矩阵学习问题或变换矩阵寻找问题,首先找到一个目标满足的高维空间。然后,对高维特征进行压缩,形成低维特征表示。例如,一旦学习了核矩阵,就可以提取隐式高维特征的主成分,基于主成分分析构造新的特征表示。
(映射构造+映射学习)另一种方法是将原始特征映射到构造好的高维特征空间,然后学习一个低维映射来满足目标函数。例如,首先可以根据选定的核函数构造一个核矩阵。然后,学习变换矩阵,将高维特征投影到一个共同的潜在子空间中。
(直接低维映射学习)通常很难直接找到一个想要的低维映射。然而,如果假设映射满足某些条件,它可能是可解的。例如,如果低维映射被限制为线性映射,那么优化问题就很容易解决.
有些方法还试图匹配条件分布并保留数据的结构。为了实现这一点,上述简单的目标函数需要包含新的术语或/和约束。例如,下面的一般目标函数是一个可能的选择
µ
µ
µ是平衡的边缘和条件分布差异的一个参数,
Ω
G
E
O
(
Φ
)
\Omega ^{GEO}(\Phi)
ΩGEO(Φ)是控制几何结构的正则项,
Φ
(
X
)
\Phi(X)
Φ(X)矩阵的行是实例的源和目标域提取的新特性表示,
H
H
H是定心矩阵构造散射矩阵,约束是用于最大化方差。目标函数中的最后一项表示条件分布差异的度量。
PS:
D
I
S
T
(
X
S
,
X
T
;
Φ
)
DIST(X^S,X^T;\Phi)
DIST(XS,XT;Φ)是源域和目标域实例差异度量
D
I
S
T
(
Y
S
∣
X
S
,
Y
T
∣
X
T
;
Φ
)
DIST(Y^S|X^S,Y^T|X^T;\Phi)
DIST(YS∣XS,YT∣XT;Φ)是源域和目标域实例条件分布差异度量
值得一提的是目标域实例的标签信息通常是有限的,甚至是未知的。由于缺乏标签信息,很难估计分布差异。为了解决这个问题,一些方法诉诸伪标签策略,即,分配伪标签给未标记的目标域实例。实现这一点的一个简单方法是训练一个基分类器来分配伪标签。一旦伪标签信息被补充,条件分布差异就可以被测量。例如,可以对MMD进行修改和扩展,以度量条件分布差异。具体来说,对于每个标签,收集属于同一类的源域和目标域实例,并给出条件分布差异的估计表达式
∑
k
=
1
∣
y
∣
∥
1
n
k
S
∑
i
=
1
n
k
S
Φ
(
x
i
S
)
−
1
n
k
T
∑
j
=
1
n
k
T
Φ
(
x
j
T
)
∥
H
2
\sum_{k=1}^{|y|}
有些方法将特征转换为一个新的特征空间(通常是高维的),同时训练一个自适应分类器。为此,需要将特征的映射函数与分类器的决策函数相关联。一种可能的方法是定义以下决策函数
\space \space \space
5.2.4特征聚类
特征聚类的目的是在原始特征的基础上找到更抽象的特征表示。虽然可以看作是一种特征提取的方法,但它不同于上述基于映射的提取方法。
\space \space \space
5.2.5特征选择
特征选择是特征约简的另一种操作,用于提取枢轴特征。轴心特征是在不同领域以相同方式表现的特征。由于这些特征的稳定性,它们可以作为传递知识的桥梁。
\space \space \space
5.2.7特征编码
深度学习领域常用的自动编码器可以用于特征编码。自动编码器由编码器和解码器组成。编码器试图产生输入的一个更抽象的表示,而解码器的目标是映射回该表示并最小化重构错误。自动编码器可以堆叠起来构建一个深度学习架构。一旦一个自动编码器完成了训练过程,另一个自动编码器可以堆叠在它的顶部。然后,使用上级自动编码器的编码输出作为其输入来训练新添加的自动编码器。
\space \space \space
5.2.7特征对齐
特征增强和特征减少主要集中在特征空间中的显式特征上。相比之下,除了显式特征外,特征比对还侧重于一些隐式特征,如统计特征和光谱特征。因此,特征对齐在特征转换过程中可以发挥多种作用。可对齐的特征有多种,包括子空间特征、光谱特征和统计特征。以子空间特征对齐为例。典型的方法主要有以下步骤。
1.子空间生成:在这个步骤中,实例用于为源域和目标域生成各自的子空间。然后得到源域子空间和目标域子空间的标准正交基,分别用
M
S
M_S
MS和
M
T
M_T
MT表示。这些基用于学习子空间之间的转移。
2.子空间对齐:在第二步中,学习一个映射,将子空间的MS和MT基对齐。将实例的特征投影到对齐的子空间中,生成新的特征表示。
3.学习训练:最后,在转换的实例上训练目标学习者.
W
=
a
r
g
m
i
n
W
∥
M
S
W
−
M
T
∥
F
2
=
M
S
T
M
T
W=argmin_W
迁移学习模型的主要目的是在目标域上做出准确的预测结果,例如分类或聚类结果。注意,迁移学习模型可能包含一些子模块,如分类器、提取器或编码器。这些子模块可能扮演不同的角色,如特征适配或伪标签生成。
6.1模型控制策略
模型的角度来看,一种自然的想法是直接在学习者的目标函数中添加模型级正则化器。这样,在训练过程中,可以将预获取的源模型中包含的知识转移到目标模型中。
Duan等人的论文提出了一种通用框架,称为域适应机器(DAM),该框架专为多源迁移学习而设计。DAM的目标是利用预先获得的基分类器在多个源域上分别训练,构建目标域的鲁棒分类器。
m
i
n
f
T
L
T
,
L
(
f
T
)
+
λ
1
Ω
D
(
f
T
)
+
λ
2
Ω
(
f
T
)
min_{f^T}\mathcal{L^{T,L}}(f^T)+\lambda_1\Omega^D(f^T)+\lambda_2\Omega(f^T)
minfTLT,L(fT)+λ1ΩD(fT)+λ2Ω(fT)
L
T
,
L
(
f
T
)
\mathcal{L^{T,L}}(f^T)
LT,L(fT)表示目标域实例的分类错误损失函数。
Ω
D
(
f
T
)
\Omega^D(f^T)
ΩD(fT)表示不同的正则化器
Ω
(
f
T
)
\Omega(f^T)
Ω(fT)用于控制最终决策函数
f
(
⋅
)
f(\cdot)
f(⋅)的复杂性
一些迁移学习可以是上面的特例
∑
i
=
1
n
S
k
l
o
g
P
(
y
i
S
k
∣
x
i
S
k
;
f
k
S
)
\sum_{i=1}^{n^{S_k}}logP(y_i^{S_k}|x_i^{S_k};f_k^S)
∑i=1nSklogP(yiSk∣xiSk;fkS)是用于量化第
k
k
k个分类器在第
k
k
k个源域上的分类误差.
最后一项是交叉熵形式的共识正则化(
S
(
x
)
=
−
x
l
o
g
x
S(x)=-xlogx
S(x)=−xlogx).
一致性正则化不仅可以增强所有分类器的一致性,还可以减少目标域预测的不确定性。
6.2参数控制策略
参数控制策略的重点是模型的参数。例如,在对象分类的应用中,可以通过形状、颜色等对象属性将已知源类别的知识转化为目标类别。可以从源域学习属性先验,即每个属性对应的图像特征的概率分布参数,然后用于学习目标分类器。模型的参数实际上反映了模型学习到的知识。参数迁移又分为两种参数共享和参数约束。
6.2.1参数共享(Parameter Sharing)
一种直观的控制参数的方法是直接将源学习者的参数共享给目标学习者。参数共享在基于网络的方法中得到了广泛的应用。例如,如果我们有一个用于源任务的神经网络,我们可以冻结(或者说共享)它的大部分层,并只微调最后几层以产生一个目标网络。除了基于网络的参数共享,基于矩阵分解的参数共享也是可行的。
6.2.2参数约束 (Parameter restriction)
与强制模型共享部分参数的参数共享策略不同,参数约束策略只要求源模型和目标模型的参数相似。以类别学习方法为例。分类学习问题是学习一个新的决策函数来预测一个新的类别(用第(k + 1)个类别表示),只需要有限的目标域实例和k个预先获得的二元决策函数。这些预先获得的决策函数的作用是预测一个实例属于k个类别中的哪一个。为了解决范畴学习问题,
6.3模型集成策略
直接将数据或模型组合到单个域中可能不会成功,因为这些域的分布是不同的。模型集成是另一种常用的策略。该策略旨在结合多个弱分类器进行最终预测。前面提到的一些迁移学习方法已经采用了这一策略。例如TrAdaBoost和MsTrAdaBoost分别通过投票和加权对弱分类器进行整合。
6.4深度学习技术
深度学习方法在机器学习领域尤为流行。许多研究者利用深度学习技术构建迁移学习模型。之前提到的SDA和mSLDA方法使用了深度学习技术。深度学习方法分为两类,即非对抗性(或者说传统的)和对抗性。
6.4.1传统深度学习(Traditional Deep Learning)
自动编码器经常用于深度学习领域。除了SDA和mSLDA,还有其他一些基于重构的迁移学习方法。
eg,Zhuang等人提出了一种基于深度自动编码器(Deep Autoencoders,
TLDA)的迁移学习方法。TLDA的源域和目标域分别采用两个自动编码器。这两个自动编码器共享相同的参数。编码器和解码器都有两层,具有激活功能。两种自动编码器的框图如下
TLDA的目标有以下三点
1.重构误差最小化:解码器的输出应非常接近编码器的输入。也就是说,
X
S
X^S
XS和
X
ˉ
S
\bar X^S
XˉS之间的距离以及
X
T
X^T
XT和
X
ˉ
T
\bar X^T
XˉT之间的距离应该最小化。
2.分布适应:最小化
Q
S
Q^S
QS与
Q
T
Q^T
QT间的分布差异。
3.回归误差最小化:编码器在标记的源域实例上的输出,即
R
S
R^S
RS,应与对应的标签信息
Y
S
Y^S
YS一致。
其中第一项表示重构误差,
K
L
(
⋅
)
KL(·)
KL(⋅)表示
K
L
KL
KL散度,第三项控制复杂度,最后一项表示回归误差。TLDA采用梯度下降法进行训练。最终的预测有两种不同的方法。第一种方法是直接使用编码器的输出进行预测。第二种方法是将自动编码器视为特征提取器,然后用编码器第一层输出产生的特征表示在标记的实例上训练目标分类器。
除了基于重构的域自适应外,基于差异的域自适应也是一个流行的方向。Long等人进行了多层自适应,并利用了多核技术,提出了一种称为深度自适应网络(DAN)的体系结构。
在上述网络中,首先通过5个卷积层,按通用化的方式提取特征。然后,提取的特征被输入到两个完全连接的网络中的一个。这两个网络都由三个完全连接的层组成,这些层专门用于源域和目标域。DAN有以下目标。
1.最小化分类错误:最小化已标记实例的分类错误。采用交叉熵损失函数对标记实例的预测误差进行度量。
2.分布适配:多层,包括表示层和输出层,可以以层的方式共同适配。作者转而使用MK-MMD,而不是使用单内核的MMD来测量分布差异。采用MK-MMD的线性时间无偏估计,避免了大量的内积运算
3.Kernel参数优化:对MK-MMD中多个Kernel的权重参数进行优化,使测试功率最大化。
上述优化实际上是一个极大极小优化问题。目标函数相对于核函数κ的最大化,目标函数的目标是使测试幂最大化。在此步骤之后,源域和目标域之间的细微差别将被放大。这种思路类似于生成对抗网络(GAN)
6.4.2对抗深度学习(AdversarialDeep Learning)
对抗学习的思想可以整合到基于深度学习的迁移学习方法中。如上所述,在DAN框架中,网络
θ
θ
θ和核
κ
κ
κ都是极大极小对策,反映了对抗学习的思想。然而,DAN框架在对抗性匹配方面与基于gan的传统方法略有不同。在DAN框架中,
m
a
x
max
max博弈中需要优化的参数很少,这使得优化更容易达到均衡。在介绍对抗性迁移学习方法之前,让我们简要回顾一下最初的GAN框架及其相关工作。
在GAN的激励下,许多迁移学习方法建立在假设良好的特征表示几乎不包含关于实例原始领域的歧视性信息的基础上。
些方法是为某些特殊场景设计的。以部分迁移学习为例。部分迁移学习方法是针对源域类比目标域类少的情况而设计的。在这种情况下,具有不同标签的源域实例可能具有不同的标签.
在目标识别和文本分类两个主流研究领域,评价不同类别中一些有代表性的迁移学习模型的性能的实验.
D
a
t
a
s
e
t
:
O
f
f
i
c
e
31
、
R
e
u
t
e
r
s
−
21578
、
A
m
a
z
o
n
R
e
v
i
e
w
s
Dataset:Office31、Reuters-21578、Amazon Reviews
Dataset:Office31、Reuters−21578、AmazonReviews
在性能较好的算法中,
H
I
D
C
HIDC
HIDC和
M
T
r
i
c
k
MTrick
MTrick是基于特征约简(特征聚类),其他的是基于特征编码(
S
D
A
SDA
SDA)、特征对齐(
S
F
A
SFA
SFA)和特征选择(
S
C
L
SCL
SCL)。这些策略是目前基于特征的迁移学习的主流。
(没有细看,省略。。。。。。。。)
在迁移学习领域,未来的研究方向有很多。首先,迁移学习技术可以进一步探索并应用于更广泛的应用领域。在更复杂的情况下,需要新的方法来解决知识转移问题。例如,在真实场景中,有时用户相关源域数据来自另一家公司。在这种情况下,如何在保护用户隐私的同时转移源域中所包含的知识是一个重要的问题。其次,如何衡量企业的跨领域可转移性,避免负迁移也是一个重要问题。虽然对负迁移已有一些研究,但负迁移还需要进一步的系统分析。第三,迁移学习的可解释性也需要进一步研究。最后,可以进一步开展理论研究,为迁移学习的有效性和适用性提供理论支持。迁移学习作为机器学习的一个热门和有发展前景的领域,与传统的机器学习相比,具有数据依赖性小、标签依赖性小等优点。希望我们的工作能够帮助读者更好地了解研究现状和研究思路。
PS:个人学习笔记,仅供参考!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。