赞
踩
给定大小为 c c c 标记空间 Y \pmb{\mathcal{Y}} Y 和某个样例 x \pmb{x} x ,如果用 0(1) 表示某个标记 y y y 在(不在) x \pmb{x} x 标记集中,可以把输出看做一个二进制编码,易见任意样例 x \pmb{x} x 的输出空间大小为 2 c − 1 2^c-1 2c−1
多标记学习能够很好地对 “用哪些标记来描述样本” 这一不确定性问题进行建模,但它不能很好处理 “标记描述示例的程度" 这一更加一般的不确定性问题,比如说,标记集中的每一个标记的描述样本的准确度是多少。一种更加自然地去标记一个示例
x
\pmb{x}
x 的方式,是为它的每一个可能的标记
y
y
y,分配一个实数
d
x
y
d_x^y
dxy(称之为描述度),用以表示该标记描述示例的程度。进一步假设实例能够由标记分布中的标记完全描述,即有
∑
y
d
x
y
=
1
\sum_y d_x^y=1
y∑dxy=1 对一个特定的示例,它标记集合中所有标记的描述度构建了一个类似于概率分布的数据形式。所以,我们称之为标记分布(label distribution)。传统的单标记强监督学习和多标签学习都是标记分布学习的特殊形式
更具灵活性意味着更大的输出空间,从单标记到多标记再到标记分布,学习任务的输出空间逐渐增大。具体的,对于有 c c c 个不同标记的问题,在单标记学习中有 c c c 种不同的输出,在多标记学习中有 2 c − 1 2^c-1 2c−1 种不同的输出,然而在标记分布中,有无数种可能的输出,只要其满足描述度非负且和为1的约束。只有两个标记的情况下,三种学习范式不同的特征空间决策域如下图所示
学习系统的目标是预测未见对象的所有可能标记及其描述度,或者说一个标记分布 D \pmb{D} D,由分布律(离散标记集)或条件概率密度函数(连续标记集) 表示
标记分布学习框架示意如下
令 X \pmb{\mathcal{X}} X 为示例空间(特征空间), Y = { y 1 , y 2 , . . . , y L } \pmb{\mathcal{Y}} = \{y_1,y_2,...,y_L\} Y={y1,y2,...,yL} 为有限标记空间,给定数据集 S = { ( x i , D i ) ∣ 1 ≤ i ≤ m } \mathcal{S} = \{(\pmb{x}_i,\pmb{D}_i)|1\leq i\leq m\} S={(xi,Di)∣1≤i≤m},其中 x i ∈ X , D i = [ d i 1 , d i 2 , . . . , d i L ] \pmb{x}_i \in\pmb{\mathcal{X}}, \pmb{D}_i=[d_i^1,d_i^2,...,d_i^L] xi∈X,Di=[di1,di2,...,diL] 是样本对应的真实标记分布(其中 L L L 是每个标记分布中标记的数量,为固定值)。目标是学得条件概率密度函数 p ( y ∣ x ) p(y|\pmb{x}) p(y∣x) 表示的样本标记分布
说明: d i j d_i^j dij 并不表示 y i y_i yi 对 x i \pmb{x}_i xi 正确描述的概率,其表达的是在完全描述 x i \pmb{x}_i xi 的标记集 Y \pmb{\mathcal{Y}} Y 中,标记 y j y_j yj 描述程度所占的比例
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。