赞
踩
所谓的集成学习指的是通过构建多个学习器来完成学习的任务,有的时候也被称为多分类器系统。其基本框架如下图所示:
我们从统一的训练样本,通过某种算法来产生多个学习器,再通过某一种策略来将各个学习器进行组合,从而形成一个学习器系统。我们将从训练样本中产生的每一个单个的学习器称为弱学习器。目前,集成学习主要包括两种实现方式,一种是两个学习器之间是存在依赖性的,也就是说,一个新的弱学习器的生成是和之前的弱学习器是有关联的。那么所有弱学习器生成的过程是串行的。这种方式比较有代表性的是AdaBoost算法。另外一种是每一个弱学习器的生成和其他弱学习器的生成是无关的。也就是一种并行生成的方式。这种方式的代表性算法是随机森林(Random Forest)。
上面我们描述了集成学习的基本概念和两种主要的方式,下面我们来介绍第一种方式。这里我们主要介绍的是AdaBoost算法。AdaBoost算法的基本思想是:通过前面生成的弱分类器来调节训练样本集合中的每一个样本的权重,在进行重新采样,形成新的样本集合,继续训练下一个弱分类器。
迭代之后有:
1
N
∑
i
=
1
N
e
x
p
{
−
y
i
F
(
x
i
)
}
=
∏
j
=
1
M
Z
j
\frac{1}{N}∑_{i=1}^Nexp\{-y_iF(x_i)\}=∏_{j=1}^MZ_j
N1i=1∑Nexp{−yiF(xi)}=j=1∏MZj
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。