搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
笔触狂放9
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
场景文本检测与识别:最新进展及未来趋势_icdar 2003介绍
2
final修饰变量、方法、类的作用_final关键字修饰类,方法和变量各起什么作用
3
js扫码或者Vue实现扫描二维码识别_js识别二维码内容
4
基于Java的医疗信息可视化系统的设计与实现(附源码网盘链接)_医疗数据可视化系统
5
FPGA编程中常用的经典方法及技巧(图像处理-映射技术)_fpga 图像 映射技术
6
Material Components之旅——MaterialButton
7
坐标系变换、相机模型以及色彩空间与深度空间的映射关系_色彩空间坐标映射
8
大数据最新学成在线day13 支付通知
9
实验1 stm32控制led灯闪烁_stm32实现led灯闪烁实验总结
10
简易指南:Postman 如何发送 put 请求?_postman put请求
当前位置:
article
> 正文
LogisticRegression - 参数说明_logisticregression的权重classweight
作者:笔触狂放9 | 2024-05-17 16:15:25
赞
踩
logisticregression的权重classweight
LogisticRegression
逻辑回归参数详细说明
参数说明如下:
penalty:惩罚项
,str类型,可选参数为l1和l2,默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布,L2假设的模型参数满足高斯分布,所谓的范式就是加上对参数的约束,使得模型更不会过拟合(overfit),但是如果要说是不是加了约束就会好,这个没有人能回答,只能说,加约束的情况下,理论上应该可以获得泛化能力更强的结果。
dual:对偶或原始方法,bool类型,默认为False。对偶方法只用在求解线性多核(liblinear)的L2惩罚项上。当样本数量>样本特征的时候,dual通常设置为False。
tol:停止求解的标准,float类型,默认为1e-4。就是求解到多少的时候,停止,认为已经求出最优解。
c
:正则化系数λ的倒数,float类型,默认为1.0。必须是正浮点型数。像SVM一样,越小的数值表示越强的正则化。
fit_intercept:是否存在截距或偏差,bool类型,默认为True。
intercept_scaling:仅在正则化项为”liblinear”,且fit_intercept设置为True时有用。float类型,默认为1。
class_weight
:用于标示分类模型中各种类型的权重,可以是一个字典或者’balanced’字符串,默认为不输入,也就是不考虑权重,即为None。如果选择输入的话,可以选择balanced让类库自己计算类型权重,或者自己输入各个类型的权重。举个例子,比如对于0,1的二元模型,我们可以定义class_weight={0:0.9,1:0.1},这样类型0的权重为90%,而类型1的权重为10%。如果class_weight选择balanced,那么类库会根据训练样本量来计算权重。某种类型样本量越多,则权重越低,样本量越少,则权重越高。当class_weight为balanced时,类权重计算方法如下:n_samples / (n_classes * np.bincount(y))。n_samples为样本数,n_classes为类别数量,np.bincount(y)会输出每个类的样本数,例如y=[1,0,0,1,1],则np.bincount(y)=[2,3]。
那么class_weight有什么作用呢?
在分类模型中,我们经常会遇到两类问题:
第一种是误分类的代价很高。比如对合法用户和非法用户进行分类,将非法用户分类为合法用户的代价很高,我们宁愿将合法用户分类为非法用户,这时可以人工再甄别,但是却不愿将非法用户分类为合法用户。这时,我们可以适当提高非法用户的权重。
第二种是样本是高度失衡的,比如我们有合法用户和非法用户的二元样本数据10000条,里面合法用户有9995条,非法用户只有5条,如果我们不考虑权重,则我们可以将所有的测试集都预测为合法用户,这样预测准确率理论上有99.95%,但是却没有任何意义。这时,我们可以选择balanced,让类库自动提高非法用户样本的权重。提高了某种分类的权重,相比不考虑权重,会有更多的样本分类划分到高权重的类别,从而可以解决上面两类问题。
random_state:随机数种子,int类型,可选参数,默认为无,仅在正则化优化算法为sag,liblinear时有用。
solver
:优化算法选择参数,只有五个可选参数,即newton-cg,lbfgs,liblinear,sag,saga。默认为liblinear。solver参数决定了我们对逻辑回归损失函数的优化方法,有四种算法可以选择,分别是:
liblinear
:使用了开源的liblinear库实现,内部使用了坐标轴下降法来迭代优化损失函数。
lbfgs
:拟牛顿法的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
newton-cg
:也是牛顿法家族的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
sag
:即随机平均梯度下降,是梯度下降法的变种,和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度,适合于样本数据多的时候。
saga
:线性收敛的随机优化算法的的变重。
总结:
liblinear适用于小数据集,而sag和saga适用于大数据集因为速度更快。
对于多分类问题,只有newton-cg,sag,saga和lbfgs能够处理多项损失,而liblinear受限于一对剩余(OvR)。啥意思,就是用liblinear的时候,如果是多分类问题,得先把一种类别作为一个类别,剩余的所有类别作为另外一个类别。一次类推,遍历所有类别,进行分类。
newton-cg,sag和lbfgs这三种优化算法时都需要损失函数的一阶或者二阶连续导数,因此不能用于没有连续导数的L1正则化,只能用于L2正则化。而liblinear和saga通吃L1正则化和L2正则化。
同时,sag每次仅仅使用了部分样本进行梯度迭代,所以当样本量少的时候不要选择它,而如果样本量非常大,比如大于10万,sag是第一选择。但是sag不能用于L1正则化,所以当你有大量的样本,又需要L1正则化的话就要自己做取舍了。要么通过对样本采样来降低样本量,要么回到L2正则化。
从上面的描述,大家可能觉得,既然newton-cg, lbfgs和sag这么多限制,如果不是大样本,我们选择liblinear不就行了嘛!错,因为liblinear也有自己的弱点!我们知道,逻辑回归有二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见的有one-vs-rest(OvR)和many-vs-many(MvM)两种。而MvM一般比OvR分类相对准确一些。郁闷的是liblinear只支持OvR,不支持MvM,这样如果我们需要相对精确的多元逻辑回归时,就不能选择liblinear了。也意味着如果我们需要相对精确的多元逻辑回归不能使用L1正则化了。
max_iter:算法收敛最大迭代次数,int类型,默认为10。仅在正则化优化算法为newton-cg, sag和lbfgs才有用,算法收敛的最大迭代次数。
multi_class
:分类方式选择参数,str类型,可选参数为ovr和multinomial,默认为ovr。ovr即前面提到的one-vs-rest(OvR),而multinomial即前面提到的many-vs-many(MvM)。如果是二元逻辑回归,ovr和multinomial并没有任何区别,区别主要在多元逻辑回归上。
OvR和MvM有什么不同
*?*
OvR的思想很简单,无论你是多少元逻辑回归,我们都可以看做二元逻辑回归。具体做法是,对于
第K类
的分类决策,我们把所有第K类的样本作为正例,除了第K类样本以外的所有样本都作为负例,然后在上面做二元逻辑回归,得到第K类的分类模型。其他类的分类模型获得以此类推。
而MvM则相对复杂,这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类,我们每次在所有的T类样本里面
选择两类样本出来
,不妨记为T1类和T2类,把所有的输出为T1和T2的样本放在一起,把T1作为正例,T2作为负例,进行二元逻辑回归,得到模型参数。我们一共需要T(T-1)/2次分类。
可以看出OvR相对简单,但分类效果相对略差(这里指大多数样本分布情况,某些样本分布下OvR可能更好)。而MvM分类相对精确,但是分类速度没有OvR快。如果选择了ovr,则4种损失函数的优化方法liblinear,newton-cg,lbfgs和sag都可以选择。但是如果选择了multinomial,则只能选择newton-cg, lbfgs和sag了。
verbose:日志冗长度,int类型。默认为0。就是不输出训练过程,1的时候偶尔输出结果,大于1,对于每个子模型都输出。
warm_start:热启动参数,bool类型。默认为False。如果为True,则下一次训练是以追加树的形式进行(重新使用上一次的调用作为初始化)。
n_jobs:并行数。int类型,默认为1。1的时候,用CPU的一个内核运行程序,2的时候,用CPU的2个内核运行程序。为-1的时候,用所有CPU的内核运行程序。
总结:
优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低。
缺点:容易欠拟合,分类精度可能不高。
其他:
Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可以由最优化算法完成。
改进的一些最优化算法,比如sag。它可以在新数据到来时就完成参数更新,而不需要重新读取整个数据集来进行批量处理。
转载: https://blog.csdn.net/jark_/article/details/78342644
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/笔触狂放9/article/detail/584294
推荐阅读
article
mac
终端
command
not
found
_我们一起使用
Mac
学
Python
吧!...
我是一只代码小白,对代码一窍不通,但是因为对数据分析比较感兴趣,所以想找闲暇时间自学
Python
,也许用Windows开...
赞
踩
article
网课
公众
号
查题
接口
搜题
公众
号
搭建
教程
_
微信
公众
号
搜题
源码...
今天带大家制作属于自己的网课
搜题
公众
号
教程
下面看成品图:我们经常会看到一些可以
查题
的
微信
公众
号
非常羡慕,也想自己拥有一个...
赞
踩
article
Linux系统离线
安装
RabbitMQ
_
linux
离线
安装
rabbitmq
...
在
linux
系统中离线
安装
RabbitMQ
_
linux
离线
安装
rabbitmq
linux
离线
安装
rabbitmq
...
赞
踩
article
解读
大
数据分析系统
...
大
数据的重要性日益突出,对于
大
数据的应用也在逐步加深,对于很多科技公司而言,掌握
大
数据分析系统
开发的前沿,就等于拥有了整...
赞
踩
article
EasyPoi
使用
记录_
easypoi
-
base
...
导出的Excel无数据java.lang.IllegalArgumentException: object is not...
赞
踩
article
2.6-
使
用
C#
Winform
开发
Tcp
/
Udp
网络小助手(含步骤和源码)_
winfrom
中好
用
的
...
一、界面设计在做软件之前
使
用
“软件界面设计工具”先设计并绘制出软件界面,方便在写代码之前确认“功能需求”以及“交互流程”...
赞
踩
article
渗透
测试
-干货 |
80
篇+
网络安全
面试
经验帖(
面试
篇)_
渗透
测试
面试
录音...
渗透
测试
-干货 |
80
篇+
网络安全
面试
经验帖(
面试
篇)_
渗透
测试
面试
录音
渗透
测试
面试
录音 ...
赞
踩
article
深挖全
媒体
多
模态
数据
价值,
蜜度
亮相2022
世界
人工智能
大会...
蜜度
深度挖掘全
媒体
多
模态
数据
核心价值,提供重要垂直领域解决方案。深挖全
媒体
多
模态
数据
价值,
蜜度
亮相2022
世界
人工智能
大...
赞
踩
article
计算机
系统
的
结构
分类
,图解
计算机
结构
与
系统
分类
!!...
写在前面今天,我们继续更新【程序员进阶系列】专题,冰河带你从零入坑程序员。接下来,我们一起聊聊盘算机的
结构
和
系统
分类
。文...
赞
踩
article
Docker
学习
(
带图详细
)
...
Docker
学习
(
带图详细
)
Docker
学习
(
带图详细
)
一、安...
赞
踩
article
这10个
在线
AI
绘图
工具
太好用了,
设计师
们快来
get
!...
它提供的
工具
和功能比普通的
在线
绘图
软件要复杂许多,但最终可以创作出非常特别的像素风格效果,非常适合喜欢复古艺术、游戏和编...
赞
踩
article
CentOS8
离线安装
rabbitmq
-
3.8
_
rabbitmq
-
server
-
3.8
.3-1....
一、安装文件erlang-22.3.2-1.
el8
.x86_64.
rpm
socat-1.7.3.2-6.
el8
.x86_...
赞
踩
article
北航
2019
计算机
学院
就业
报告
,
就业
丨
北航
2019
届
就业
质量
报告
,
本科
就业
率95%...
原标题:
就业
丨
北航
2019
届
就业
质量
报告
,
本科
就业
率95%本文共计2341 字,预计阅读时间5 分钟上一期,小桥为大家分...
赞
踩
article
macOS
Sonoma
14.2
(
23C64
) 正式版 Boot ISO 原版可引导镜像下载_m...
macOS
Sonoma
14.2
(
23C64
) 正式版 Boot ISO 原版可引导镜像下载_
macos
14.2
...
赞
踩
article
Debezium
系列之:基于
Debezium
实现
高
可靠性
高
实时
性秒级别的
数据
响应
系统_
数据
库
实时
响应
...
Debezium
系列之:基于
Debezium
实现
高
可靠性
高
实时
性秒级别的
数据
响应
系统_
数据
库
实时
响应
数据
库
实时
响应
...
赞
踩
article
【
高阶
数据结构
】
并
查集
详解...
并
查集
并
查集
概述
并
查集
功能分析数组实现
并
查集
并
查集
——森林实现
并
查集
——查找算法
并
查集
——合
并
算法整体代码
并
查集
概述
并
查...
赞
踩
article
mysql
数据
库
数据
调用
_
Mysql
数据
库
基本操作
以及
调用
(一)...
一、进入
Mysql
、database、相关操作1.
Mysql
:
mysql
-uroot -p2.查看库: show ...
赞
踩
article
SAP
HCM
工资折算用到
的
参数
因子...
https://help.sap.com/saphelp_dbm800/helpdata/en/a3/cade53718...
赞
踩
article
django
仓库
管理
系统
50967(程序+开题报告)_
基于
django
框架
的
仓库
管理
系统
管理
的
基本需...
6] 虞菊花, 乔虹.
基于
Python
的
Web页面自动登录工具设计与实现[J]. 安徽电子信息职业技术学院学报, 20...
赞
踩
article
PY:
工资
项
目的
配置
、
属性
及分类?_
sap
工资
项
配置
到0015...
工资
类型的
配置
工资
项
的
属性
:比率(Rate)、数字(Number)、数量(Amount)。每个
工资
项
都有几十个不同的
属性
...
赞
踩
相关标签
mac终端command not found
其他
linux
rabbitmq
数据分析系统
java
spring boot
spring
上位机
安全性测试
web安全
安全
人工智能
WAIC
蜜度
舆情
多模态
计算机系统的结构分类
docker
容器
运维
网络安全
CentOS
RabbitMQ
北航2019计算机学院就业报告