赞
踩
本文档记录了《机器学习》第 13 章半监督学习相关内容
学习器不依赖外界交互、自动的利用未标记样本来提升学习性能。
本质——相似的样本具有相似的输出。
簇结构
,同一个簇的样本同属一个类别。流形结构
上,邻近的样本具有相似的输出值。混合成分与类别一一对应
符号标记
概率
:样本由第 后验概率
:
样本由第
模型预测
参数更新见 P297 EM算法。
目标函数:
约束条件:
算法:
SVM_l = train(D_l) # 有标签数据训练
y_hat = SVM_l.predicate(D_u) # 无标签数据预测
C_u.init() << C_l.init()
while C_u < C_l do
(w,b),xi = SVM_l.optimize(D_l,D_u,y_hat,C_l,C_u) # 根据目标函数优化模型参数
# 若存在一对未标记样本 (x_i,x_j),它们的指派标记不同,且对应的松弛变量之和过大,说明它们的指派标记很可能是错的
def traverse(y_hat):
if y_hat[i]*y_hat[j]<0 and xi[i]>0 and xi[j]>0 and xi[i]+xi[j]>2:
y_hat[i] = -y_hat[i]
y_hat[j] = -y_hat[j]
(w,b),xi = SVM_l.optimize(D_l,D_u,y_hat,C_l,C_u)
C_u = min(2*C_u,C_l)
end while
最有把握
的未标记样本赋予伪标记两种辅助的监督信息:
* 必连集合
* 少量的标记样本信息
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。