搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家自动化
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
PHP如何下载对应的XDebug版本_xdebug历史版本下载
2
HTML生日快乐代码 (粉色主题)(HTML5+CSS3+JS)520表白代码/七夕情人节网页/告白/求婚/生日快乐_生日快乐的链接代码
3
unity2d人物真实跳跃实现(RigidBody添加力的作用)_unity rigidbody2d.addforce()
4
matlab实现瑞利信道需要的步骤,瑞利信道Matlab仿真程序
5
ZooKeeper 集群最少要几台服务器,为什么?_zookeeper最少几台
6
css的主题,CSS主题切换
7
python网络编程之websocket_python websocket客户端
8
Vue3+element ui取消el-select下拉选边框_vue3中使用elementplus选择器的边框如何去掉
9
Java依赖管理-eclipse中使用maven_eclipse 管理java依赖项
10
数据预处理_对一个属性的所有遗漏的值军利用一个用零来填补这属于缺失数据处理中的什么
当前位置:
article
> 正文
Boosting原理及其应用_boosting算法及其应用
作者:我家自动化 | 2024-02-17 01:14:15
赞
踩
boosting算法及其应用
一、背景
故事:
某男到医院就诊,医生亲切地问了一些该男的症状,最后得出结论:“医生说我怀孕了。。。”
血淋淋的故事告诉我们:
需要一个好的诊断器:根据病人的一系列症状,得出病人患的是什么病。
实际上,这是一个分类问题。
分类问题很常见:
1) 博客男女
2) OCR
3) 情感分类
4) 查询意图识别
5) 排序学习
6) 等等
文本分类算法:
1) Nave Bayes
2) Decision Tree
3) KNN
4) ANN
5) SVM
6) ME
7) ...
然而,事实是残酷的。直接寻找一个强分类器很困难。
弱 + … + 弱 ≈ 强
- 古语有云:三个臭皮匠,顶个诸葛亮。
- Finding many rough rules of thumb can be a lot easier and more effective than finding a single, highly prediction rule.
启发:
整合多个弱分类器,成为一个强大的分类器。这时候,集合分类器(Boosting, Bagging等)出现了。
二、Boosting原理
1. Boosting由来
Kearns & Valiant (1984)
PAC学习模型
提出问题:
1) 强学习算法:存在一个多项式时间的学习算法以识别一组概念,且识别的正确率很高。
2) 弱学习算法:识别一组概念的正确率仅比随机猜测略好。
3) 弱学习器与强学习器的等价问题。如果两者等价,只需找到一个比随机猜测略好的学习算法,就可以将其提升为强学习算法。
Kearns & Valiant (1989)
证明了弱学习器和强学习器的等价问题。
Schapire (1989)
第一个提出了一个可证明的多项式时间的Boosting算法。
Schapire, etc. (1993)
第一次把Boosting算法思想用于实际应用:OCR。
Freund & Schapire (1995)
AdaBoost算法。
2. Boosting思想
基本思想:
1) 先赋予每个训练样本相同的概率。
2) 然后进行T次迭代,每次迭代后,对分类错误的样本加大权重(重采样),使得在下一次的迭代中更加关注这些样本。
示例:
仔细观察c1 c2 c3 最后一幅图是有前面图的
划分线拼凑而成
3. AdaBoost算法及分析
1) Base Setting
二元分类问题
训练数据:
(x1, y1), …, (xm, ym)
where xi∈X, yi∈Y={-1, +1}
Dt(i): 样本xi 在第t次迭代的权重
D1(i)=1/m
ht(X):弱学习器Ct训练得到的判别函数
ht:X->{-1, +1}
εt:ht(X)的错误率
2) 基本思路
a) 训练一系列弱学习器h1, h2, …, hT。
b) 在训练过程中,注重那些分类错误的样本。
c) 把训练出来的一系列弱学习器组合起来,每个弱学习器ht(X)都有一个相应的权重α t:
3)AdaBoost算法
弱学习器Ct的权重αt由第t次迭代决定
训练样本的分布权重Dt (i)在每一次迭代都会更新
弱学习器Ct的选择:
如果某次迭代的训练误差大于1/2,则抛弃,算法停止
算法在每次迭代都会更新样本的分布权重,在下一次迭代前会进行一次训练样本的重采样。
如何进行重采样?
可根据概率分布Dt(i)来采样。“轮盘赌”算法是其中一种比较简单、高效的方法。
“轮盘赌”算法
使用一个[0~1]随机数生成器
举例:如果随机数生成器生成0.525,则恭喜你,获得“康师傅冰红茶”一瓶;若生成0.91,则能获得宝马一部。
4) AdaBoost特性分析
特性1:
训练误差的上界,随着迭代次数的增加,会逐渐下降。
特性2:
AdaBoost算法即使训练次数很多,也不会出现过度拟合(over fitting)的问题。
三、应用
1. 文本分类
给定某篇文档,判别其所属类别
文档可能是某些网页,也可能是短文本(query,微博等)
应用很广
AdaBoost (weak learner: NB, C4.5等)
2. 排序学习
1) 排序问题
2) 排序模型
3) 根据训练样本的形式及损失函数分类:
a) Pointwise approach
Prank
McRank
b) Pairwise approach
RankBoost
Ranking SVM
RankNet
c) Listwise approach
ListNet
ListMLE
4) RankBoost算法
参考文献
[1] Richard O. Duda, etc. Pattern Classification.
[2] Bing Liu. Web Data Mining.
[3] Tom M. Mitchell. Machine Learning.
[4] Yoav Freund, Robert E. Schapire. A short Introduction to Boosting.
[5] Dong Lehong. Survey of Boosting.
[6] Li Hang. Learning to Rank.
原文:
http://blog.chinaunix.net/uid-8695538-id-3130689.html
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/我家自动化/article/detail/98585
推荐阅读
article
01.
Unity
设置
成为
中文
_
unityhub
中文
设置
...
Unity
简体
中文
设置
_
unityhub
中文
设置
unityhub
中文
设置
...
赞
踩
article
Android
获取
svn
,
svn
获取历史
版本
...
❶
svn
默认保存多少个历史
版本
svn
版本
库可以说是无上限的。只要装
svn
服务器的空间够大,就可以一直往版上累加。而且在...
赞
踩
article
VanillaNet
实战
:
使用
VanillaNet
实现
图像
分类
(二)...
训练部分。_vanillanetvanillanet 文章目...
赞
踩
article
记录
Android
Studio
连接
华为(
nova
)手机鸿蒙系统踩过的坑_
nova
7
连接
andro...
鸿蒙系统的华为老机子比较麻烦,坑有点多,兄弟们加油!_
nova
7
连接
android
studio
调试
nova
7
连接
...
赞
踩
article
BraTs2021
数据
集
下载
方法_
brats2020
数据
集
下载
...
BraTs2021
数据
集
下载
方法,以及kaggle注册没有验证码的解决方法_
brats2020
数据
集
下载
brats202...
赞
踩
article
Redis
命令
---
Hash
(
哈希
)篇 (超全)_
redis
hash
命令
...
如果
哈希
表不存在,会创建一个空
哈希
表,并执行 HMSET 操作。此
命令
会覆盖
哈希
表中已存在的字段。
Redis
Hmset...
赞
踩
article
66、<
em
>px
em
>
em
<
em
>r
em
em
> <
em
>r<
em
>px
em
>
em
>的
区别
_<
em
>r
em
em
>和<
em
>r<
em
>px
em
>
em
>的
区别
...
1、<
em
>px
em
>
em
和 <
em
>r
em
em
>的
区别
包括像素<
em
>px
em
>,百分比%,
em
,<
em
>r
em
em
>,vw/vh。(1)像素(<
em
>px
em
>)是页面布局的基础,是...
赞
踩
article
修改
el
单选框被
禁用
时选中的
颜色
_
el
-s
el
ect
禁用
并且
颜色
不是灰...
/deep/.
el
-radio
_
_
input.is-disabled.is-checked .
el
-radio
_
_
inn...
赞
踩
article
计算机考研
英语
一
和
英语
二
的
区别,考研
英语
一
和
英语
二
的
区别,考研党知道了吗?......
很多人会有疑问,考研
英语
为什么区分
一
和
二
,两者之间有什么区别
和
联系,下面我会详细
的
帮助大家解开这些问题。词汇量是有区别
的
...
赞
踩
article
Linux 下 you
need
to
be
root
to
perform
this
comman...
在linux 终端执行某条命令时提示一下错误you
need
to
be
root
to
perform
this
co...
赞
踩
article
一文探讨
铭文
代币
的
本质
...
长久以来,我们对于
代币
Token 形成了几个固定的认知,
代币
一般区分为 FT 和 NFT 两种。同质化
代币
的英文是「f...
赞
踩
article
DTI
数据处理
:
from
scanner to statistics_
dti
预处理
提取b0总是报错...
安装准备工具: FSL, MRIcron准备工作:MRIcron安装MRIcron的下载地址: http://www.m...
赞
踩
article
pacman
安装
ubuntu
_
Manjaro
安装
配置笔记...
简单介绍:
Manjaro
和Ubuntu的都使用有段时间了,还是AUR大法用着舒服趁着由KDE桌面更换deepin时系统崩...
赞
踩
article
【实例】
随机
森林
可视化
的
方法(含
Python
代码
)
_
随机
森林
可视化
代码
...
【实例】
随机
森林
可视化
的
方法(含
Python
代码
)
_
随机
森林
可视化
代码
随机
森林
可视化
代码
...
赞
踩
article
2021年11月_
IEEE
TRANSACTIONS
ON
MEDICAL
IMAGING
_科技前言...
IEEE
TRANSACTIONS
ON
MEDICAL
IMAGING
文献跟踪2021年12月 • 40卷 • 第10...
赞
踩
article
ps
技术认知_
ps
csdn
...
例如,对于照片修饰,这些技术可以用来调整颜色、亮度、对比度等参数,以及添加效果、修补瑕疵、涂鸦等。另外,PS技术的精髓在...
赞
踩
article
Fabric
.
js
元素
被
选中
时保持原有
层级
...
theme: smartblue持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第15天,点击查看活...
赞
踩
article
Android
Stuido
已可以使用新的UI_
android
studio
giraffe
的ui...
Android
Studio 更新至 Giraffe 2022.3.1 将可以使用新的UI界面,界面更加简洁,隐藏了好多...
赞
踩
article
企业
10
大
管理
流程图
,
数字化
转型从业者必备!_谷歌
企业
管理
信息系统
流程图
...
因此
,
制定和执行好符合
企业
业务发展特点的销售
管理
流程
,
不但可以使没有经验的销售经理快速成长
,
提高其
管理
效率
,
而且销售
管理
...
赞
踩
article
Unity
渲染教程(三):
使用
多
张
纹理
贴图
...
对
多
个
纹理
进行采样应用一
张
细节
贴图
在线性空间中处理颜色
使用
一
张
splat
纹理
这是关于渲染的教程系列的第三部分。 前面的部...
赞
踩
相关标签
unity
游戏引擎
Android 获取 svn
分类
python
深度学习
android studio
harmonyos
android
计算机视觉
redis
哈希算法
数据库
css
html
html5
vue.js
计算机考研英语一和英语二的区别
root
区块链
智能合约
web3
核磁数据处理
FSL
DTI