当前位置:   article > 正文

确定权重的方法总结(部分)

确定权重的方法

背景介绍

在实际工作中,由于不同影响因子的影响程度不同,往往不能将所有的指标统一对待,因此要将不同的指标赋予不同的权重。

注(个人理解):对于权重确定,也分为有标签数据和无标签数据,对于有标签数据,运用回归分析等机器学习方法即可确定权重,对于无标签数据,往往不是很容易来确定权重,接下来我将总结一下我这几天看的几种权重确定方法

熵权法

一. 熵的定义

1948年,香农将统计物理中熵的概念,引申到信道通信的过程中,从而开创了”信息论“这门学科。香农定义的“熵”又被称为“香农熵” 或 “信息熵”。

二. 熵权法的原理

熵权法的基本思路是根据指标变异性的大小来确定客观权重。一般来说,若某个指标的信息熵越小,表明指标值的变异程度越大,提供的信息量就越多,在综合评价中所能起到的作用就越大,其权重也就越大。相反,某个指标的信息熵越大,表明指标值的变异程度越小,提供的信息量越少,在综合评价中所能起到的作用就越小,其权重也就越小。

三. 熵权法计算步骤

1. 数据标准化

将各个指标的数据标准化处理,这里常用的标准化为最小最大标准化:
在这里插入图片描述
注:这里不能使用零均值标准化,计算结果都是零。

2. 指标的信息熵

根据信息论中的信息熵的定义,一组信息熵的定义为
在这里插入图片描述
其中
在这里插入图片描述
Yij表示为第i个样本的第j个指标,
如果Pij=0,则定义
在这里插入图片描述

3. 指标的权重

根据信息熵的计算公式,计算出各个指标的信息熵为E1,E2,…,Ek。
通过信息熵计算各指标权重为
在这里插入图片描述

变异系数法

变异系数

变异系数又称“标准差率”,是衡量资料中各观测值变异程度的一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。

标准差与平均数的比值称为变异系数,记为C.V。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。

变异系数的计算

变异系数的计算公式:
C.V = S / x *100%.
其中,S为标准差,x为平均数。
变异系数越小,变异(偏离)程度越小,风险也就越小;反之,变异系数越大,变异(偏离)程度越大,风险也就越大。

例. 已知某良种猪场A种成年母猪平均体重为190kg,标准差为10.5kg,而B种成年母猪平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。

此例观测值虽然都是体重,单位相同,但它们的平均数不相同,只能用变异系数来比较其变异程度的大小。

A种成年母猪体重的变异系数:C.V= 10.5/190× 100%=5.53%

B种成年母猪体重的变异系数: C.V=8.5/196×100%=4.34%

所以,A种成年母猪体重的变异程度大于B种成年母猪。

注:变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出

权重的计算

最终的权重计算公式为
在这里插入图片描述

CRITIC方法

CRITIC方法是一种客观权重赋权法。

它的基本思路是确定指标的客观权数以两个基本概念为基础。
一是对比强度,它表示同一指标各个评价方案取值差距的大小,以标准差的形式来表现,即标准化差的大小表明了在同一指标内各方案的取值差距的大小,标准差越大各方案的取值差距越大。

二是评价指标之间的冲突性,指标之间的冲突性是以指标之间的相关性为基础,如两个指标之间具有较强的正相关,说明两个指标冲突性较低。

第j个指标与其他指标的冲突性量化指标为:
在这里插入图片描述
其中Rtj评价指标t和j之间的相关系数。

各个指标的客观权重就是以对比强度和冲突性来综合衡量的。设Cj表示第j个评价指标所包含的信息量,则Cj可以表示为:
在这里插入图片描述
Cj越大,第j个评价指标所包含的信息量越大,该指标的相对重要性也就越大。

所以第j个指标的客观权重为:
在这里插入图片描述

主成分分析法

原理

利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。

参考博客中的实例
https://blog.csdn.net/lrt366/article/details/82964326

因子分析法

原理

利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子

参考博客中的实例https://blog.csdn.net/m0_37099616/article/details/105724502

主成分分析和因子分析是包含与拓展的关系

因子分析解决主成分分析解释障碍的方法是通过因子轴旋转。
因子轴旋转可以使原始变量在公因子(主成分)上的载荷重新分布,从而使原始变量在公因子上的载荷两级分化,这样公因子(主成分)就能够用哪些载荷大的原始变量来解释。

参考
http://blog.sina.com.cn/s/blog_710e9b550101aqnv.html

https://wiki.mbalib.com/wiki/%E5%8F%98%E5%BC%82%E7%B3%BB%E6%95%B0

https://blog.csdn.net/u013421629/article/details/81171361

https://wiki.mbalib.com/wiki/Criteria_Importance_Though_Intercrieria_Correlation

https://wiki.mbalib.com/wiki/CRITIC%E6%B3%95

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/695495
推荐阅读
相关标签
  

闽ICP备14008679号