搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
盐析白兔
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
java 导出word试题_word07writer
2
OLAP:实现高效BI分析的必备技术
3
前端开发代码规范工具
4
(环境搭建+复现)CVE-2019-12409 Apache Solr远程代码执行漏洞
5
linux嵌入式开发:基于linux的语音机器人(一)|项目介绍|环境配置_基于嵌入式linux语音识别开发
6
【Jetson】通过操作 Rosmaster 使用 Python 语言快速熟悉并操作小车_python通过tcp协议与无人车小车建立通信rosmaster
7
【stable diffusion】图片批量自动打标签、标签批量修改(BLIP、wd14)用于训练SD或者LORA模型_stable-diffusion-webui-wd14-tagger
8
月薪10.3K!从“工厂小哥”到5G网络优化工程师:承蒙时光不弃,感谢一切给与!_5g网络优化工程师是在工厂里面上班?
9
访问Github的终极解决方案_github dns
10
zip 压缩命令_zip命令
当前位置:
article
> 正文
Boosting原理及其应用_boosting算法应用
作者:盐析白兔 | 2024-02-17 01:11:30
赞
踩
boosting算法应用
一、背景
故事:
某男到医院就诊,医生亲切地问了一些该男的症状,最后得出结论:“医生说我怀孕了。。。”
血淋淋的故事告诉我们:
需要一个好的诊断器:根据病人的一系列症状,得出病人患的是什么病。
实际上,这是一个分类问题。
分类问题很常见:
1) 博客男女
2) OCR
3) 情感分类
4) 查询意图识别
5) 排序学习
6) 等等
文本分类算法:
1) Nave Bayes
2) Decision Tree
3) KNN
4) ANN
5) SVM
6) ME
7) ...
然而,事实是残酷的。直接寻找一个强分类器很困难。
弱 + … + 弱 ≈ 强
- 古语有云:三个臭皮匠,顶个诸葛亮。
- Finding many rough rules of thumb can be a lot easier and more effective than finding a single, highly prediction rule.
启发:
整合多个弱分类器,成为一个强大的分类器。这时候,集合分类器(Boosting, Bagging等)出现了。
二、Boosting原理
1. Boosting由来
Kearns & Valiant (1984)
PAC学习模型
提出问题:
1) 强学习算法:存在一个多项式时间的学习算法以识别一组概念,且识别的正确率很高。
2) 弱学习算法:识别一组概念的正确率仅比随机猜测略好。
3) 弱学习器与强学习器的等价问题。如果两者等价,只需找到一个比随机猜测略好的学习算法,就可以将其提升为强学习算法。
Kearns & Valiant (1989)
证明了弱学习器和强学习器的等价问题。
Schapire (1989)
第一个提出了一个可证明的多项式时间的Boosting算法。
Schapire, etc. (1993)
第一次把Boosting算法思想用于实际应用:OCR。
Freund & Schapire (1995)
AdaBoost算法。
2. Boosting思想
基本思想:
1) 先赋予每个训练样本相同的概率。
2) 然后进行T次迭代,每次迭代后,对分类错误的样本加大权重(重采样),使得在下一次的迭代中更加关注这些样本。
示例:
3. AdaBoost算法及分析
1) Base Setting
二元分类问题
训练数据:
(x1, y1), …, (xm, ym)
where xi∈X, yi∈Y={-1, +1}
Dt(i): 样本xi 在第t次迭代的权重
D1(i)=1/m
ht(X):弱学习器Ct训练得到的判别函数
ht:X->{-1, +1}
εt:ht(X)的错误率
2) 基本思路
a) 训练一系列弱学习器h1, h2, …, hT。
b) 在训练过程中,注重那些分类错误的样本。
c) 把训练出来的一系列弱学习器组合起来,每个弱学习器ht(X)都有一个相应的权重α t:
3)AdaBoost算法
弱学习器Ct的权重αt由第t次迭代决定
训练样本的分布权重Dt (i)在每一次迭代都会更新
弱学习器Ct的选择:
如果某次迭代的训练误差大于1/2,则抛弃,算法停止
算法在每次迭代都会更新样本的分布权重,在下一次迭代前会进行一次训练样本的重采样。
如何进行重采样?
可根据概率分布Dt(i)来采样。“轮盘赌”算法是其中一种比较简单、高效的方法。
“轮盘赌”算法
使用一个[0~1]随机数生成器
举例:如果随机数生成器生成0.525,则恭喜你,获得“康师傅冰红茶”一瓶;若生成0.91,则能获得宝马一部。
4) AdaBoost特性分析
特性1:
训练误差的上界,随着迭代次数的增加,会逐渐下降。
特性2:
AdaBoost算法即使训练次数很多,也不会出现过度拟合(over fitting)的问题。
三、应用
1. 文本分类
给定某篇文档,判别其所属类别
文档可能是某些网页,也可能是短文本(query,微博等)
应用很广
AdaBoost (weak learner: NB, C4.5等)
2. 排序学习
1) 排序问题
2) 排序模型
3) 根据训练样本的形式及损失函数分类:
a) Pointwise approach
Prank
McRank
b) Pairwise approach
RankBoost
Ranking SVM
RankNet
c) Listwise approach
ListNet
ListMLE
4) RankBoost算法
参考文献
[1] Richard O. Duda, etc. Pattern Classification.
[2] Bing Liu. Web Data Mining.
[3] Tom M. Mitchell. Machine Learning.
[4] Yoav Freund, Robert E. Schapire. A short Introduction to Boosting.
[5] Dong Lehong. Survey of Boosting.
[6] Li Hang. Learning to Rank
原文:
http://blog.chinaunix.net/uid-8695538-id-3130689.html
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/盐析白兔/article/detail/98573
推荐阅读
article
脑卒中
公开
数据
集
(
医学影像
,
脑部
)(
BraTS2018
,
CQ5
0
0
,
ISLE
,
MRBrainS)_...
脑卒中
数据
集
:
BraTS2018
,
CQ5
0
0
,
ISLE
,
MRBrainS, Hippocampus(MRI, 1759...
赞
踩
article
微信
小
程序
即时通讯
(融云
sdk
)...
we记录一下我在使用融云
sdk
中遇到的问题使用前要去融云那边注册账号申请appid 然后开通
小
程序
服务,就可以下载
小
程序
...
赞
踩
article
Unity
打包exe,运行exe必须用
管理员
权限运行修改方法_
unity
is
running
as...
一、起因最近要发布exe,在客户某些电脑上会需要
管理员
运行,即使我放在D/Program File目录,但是
unity
压...
赞
踩
article
[C#
WPF
]
DataGrid
选中
行或
选中
单元格
的背景和字体
颜色
修改...
WPF
中
DataGrid
的
选中
行或
选中
者
单元格
,在焦点失去后,
颜色
会很淡,很不明显,不容易区分。本文介绍在失去焦点的情况...
赞
踩
article
Unity
学习笔记
--
赛车的控制代码_
function
f_set_
tuning
_lxy_
spec
_...
Unity
学习笔记–赛车的控制代码using System.Collections;using System.Colle...
赞
踩
article
Yolopose
关键点
检测
:自己标注
数据
集
,
制作
数据
集
(二)
_
关键点
检测
数据
集
...
yolopose
,
coco2yolo.py
,
coco
_
kpts文件夹的内容讲解
_
关键点
检测
数据
集
关键点
检测
数据
集
...
赞
踩
article
创新逛展体验!
实时
云
渲染
助力
2023
天河区
首届
房博会
元
宇宙
...
11月10日-12日,
2023
广州市
天河区
首届
房博会
暨家居家电消费节在体育中心南广场落幕.3DCAT
实时
云
渲染
携手惠众科...
赞
踩
article
随机
森林
算法
介绍及多
分类
预测
的
R实现_
随机
森林
预测
...
随机
森林
(Random Forest)是一种经典
的
机器学习
算法
,是数据科学家中最受欢迎和常用
的
算法
之一,最早由Leo B...
赞
踩
article
问题
解决:
multiple
definition
of
XXX...
在编译程序的时候,遇到了一个
问题
,花点时间记录一下:在Qt中创建一个类后,一般是先在.h文件中声明变量与函数,然后在对应...
赞
踩
article
【
C++
游戏
引擎
Easy2D
】想做
游戏
,这三个功能少不了(
time
+renderer+logger)...
哈喽大家好,我是iecne,本期为大家带来的是CPP/
C++
【
游戏
引擎
Easy2D
】这三个基础功能会了,做一个
游戏
不在话...
赞
踩
article
【
Unity2D
】跟随角色镜头时
,
解决
地图黑线/白线
缝隙
的三种
方案
和地图拼接
缝隙
问题
_
unity
2...
三种
方案
解决
跟随时
,
白线/黑线
缝隙
问题
,
另外一种
方案
解决
地图拼接
缝隙
的
问题
。_
unity
2d
黑边
unity
2d
黑...
赞
踩
article
【华为OD机试真题】
打印机
队列(
C++
&
java
&
python
)
100%
通过率
超详细
代码
注释
代码
...
已支持(
C++
&
java
&
python
)原题描述
100%
通过率
超详细
代码
注释
代码
注解_
c++
打印机
题解
c++
打印机
...
赞
踩
article
2023
最新版
Android
studio
安装
入门教程
(非常详细)从零基础入门到精通
,
看完
这
一篇就够...
网络安全行业产业以来
,
随即新增加
了
几十个网络安全行业岗位︰网络安全专家、网络安全分析师、安全咨询师、网络安全工程师、安全...
赞
踩
article
Element
-
UI
安装
以及引入方法_
npm
elementui
...
Element
-
UI
安装
以及引入方法
Element
UI
介绍
Element
-
UI
简介vue与
Element
-
UI
的关系入...
赞
踩
article
LarkXR
上新了 |
Apollo
适配
Meta
OpenXR
SD
,
爱奇艺
奇遇
SD
K
等,支持更多系...
平行云Cloud XR解决方案
LarkXR
发布新版本,其XR客户端接入产品
Apollo
再迎新成员,适配
Meta
Ope...
赞
踩
article
[职场]
Java
研发
工程师
求职
简历
项目
经历
范文(精选5篇) #
经验
分享#职场发展#学习方法_jav...
Java
研发
工程师
求职
简历
项目
经历
范文(精选5篇)
java
工程师
在找工作做
简历
的时候,经常不知道
求职
简历
中的
项目
经验
板块...
赞
踩
article
2022.03.09:
seaborn
.
scatterplot
()——
绘制
一个可能有几个语义
分组
的
散点...
scatterplot
绘制
一个可能有几个语义
分组
的
散点图
sns.
scatterplot
( x=None, y=None,...
赞
踩
article
mysql
1273错误_
mysql
1273
...
错误描述数据库进行数据传输时(将本地数据库导入到服务器数据库)时报1273错误:.[Err] [Dtf] 1273 - ...
赞
踩
article
基于
TBSS
的
DTI
数据处理
流程_
dti
数据处理
总是报错...
Linux系统,安装好FSL,
DTI
数据完成预处理后可进行
TBSS
处理,比较各组间FA骨架
的
差异。1.数据准备:在研究目...
赞
踩
article
Matplotlib
- 绘制 带有
对角线
的
散点图
(Diagonal
Scatter
Plots
)...
Matplotlib
是一个用于绘制二维图形的 Python 库,提供了一个 pyplot 模块,用于创建各种类型的图表...
赞
踩
相关标签
微信小程序即时通讯
unity
c#
ruby
wpf
unity3d
游戏开发
python
vr
图形渲染
xr
算法
随机森林
分类
c++
qt
debug
变量
definition
前端
开发语言
游戏引擎
游戏
笔记