赞
踩
关于数据处理,很常见的一个方法就是“去量纲处理”,在大家数据处理中经常使用到数据的标准化处理,后边的主成分分析法,因子分析,聚类分析等,都会使用到数据归一化处理。,在此分享一下关于去量纲的一些方法。希望能在建模路上帮助到大家,如果有什么错误也欢迎大家指正。
在前边两节是介绍了背景知识,第三节是编的、方便大家理解的一个案例,前两节看的迷迷糊糊的没有关系,不要纠结,先把整篇文章看完。
1
方法介绍
从名字上看常见的方法主要有:规范化方法、正规化方法 ( 标准化方法 ) 、归一化方法,不同处理方法各有各的优势及缺点。每一种方法各给出一种计算公式(还有其他的公式,不仅仅是只有这几个),大家体会一下它们之间的不同。
1、规范化处理:
2、正规化处理:
3、归一化处理:
规范化和归一化处理的特点非常明显,而正规化处理后的数据隐含了一些数理统计的知识:处理后的数据均值为 0 ,方差为 1 ,通过简单的计算大家都能得到,但是明显改变了数据之间的欧式距离,使用的时候需要分场合。
关于归一化处理,有不同的两种解释:第一种解释是各个量归一化后的和为 1 ;第二种解释是归一化后的值在 0-1 之间。大家应该经常碰到的是第二种解释方法,但是在数理统计学上说,归到 0-1 之间叫做规范化(归到某个区间内,也可以归到除了 0-1 的其他区间),在满足规范化的基础上各个标准化后的和为 1 才叫归一化。大家还记得概率论中讲的归一化处理吧。但是在很多教程中的归一化处理就是简单的归到 0-1 之间,希望大家以后纠正过来,第二种解释是一种规范化处理。
在这里强调一个点,「归一化」和「标准化」的区别,关于国外名词有很多翻译的并不是很好,直接看维基百科上的解释会更好,更加清晰。大家就直接看第三篇推文吧单独推文中介绍的比较详细。
2
变量类型划分
(一个非常重要的思想)
规范化的思想是归到 0-1 之间,不带正负号的。面对众多的变量,所要研究的目标与众多变量不可能都是正相关关系,有很多负相关或者其他类型的关系。但是我们希望所研究的目标与标准化处理后的指标呈现的都是正相关关系,。所以需要对变量类型进行划分。一般变量分成收益型、成本型、偏离型、区间型,下边分类型给出计算公式。
1、收益型(原变量越大越好):
2、成本型(原变量越小越好):
3、偏离型(原变量越接近某个值越好):
4、区间型(原变量分区间):公式比较复杂,而且不常用,这里就不给出公式了。
这一部分的公式在后边案例解释中仍会出现,后边的带着示例会更好理解,所以看到这里,就不要费太多时间研究了,一会可以再回来体会一下。
3
案例解释
在自己的学习过程中,对标准化有一点认识,比起课本上的解释,我的理解方式更方便大家理解,就在这里耍一下斧。如果懂归一化的人可能会觉得我这个场景很傻批——多此一举;不懂标准化处理的人也会觉得我傻批——莫名其妙。但是我还是希望大家跟着我的思路,认真看一下啊,一定会有收获的。
假设有这么一个场景:有这么三个地主,A B C,他们的资产构成如下
黄金:固定资产手里的钱。
土地:作为地主家里的地,可以种粮食。
交税:场景里的单位是“斗”,也就是直接交粮食。
下雨天数:下雨天越接近100天,粮食成长的越好。
哪个地主更有钱?
在没有学会数据标准化处理之前,我的思路是这样——都转化成钱。黄金就不用说了,土地按照价格换成钱,交的税换成钱,下雨天数,造成粮食的减少,也换成钱。一目了然。但是这个转化存在很多的麻烦,而且这是一个比较简单的案例,在真实的建模中很多无法通过合适的中间量来表示,使用标准化的优势立马凸显出来。
有了数据标准化,就有新的思路。上边的一通操作的原因是什么?最大的原因就是指标量纲,指标是有单位的,所以不能直接相加,黄金的万两和土地的公顷怎么能直接相加呢?如果我们能把单位去掉呢?把他们都转成没有单位的数,这样他们的相加就有意义了。
1、对于黄金和土地(收益型):
xi 愈大,标准化后的 yi 也就越大,地主越有钱。
2、对于交税(成本型),
xi 愈小,标准化后的 yi 也就越大,地主越有钱。
3、对于下雨天数(偏离型),
xi 愈接近 100 ,标准化后的 yi 也就越大,地主越有钱。
通过以上的公式我们完成了一个任务,基于变量类型的分类,将它们都变成了标准化后值越大,地主越有钱的任务,这个工作是很有价值的,让它们与同一个目标(地主有钱)有了相同的关系(正相关)。
根据以上的公式进行的规范化处理如下所示:
规范化结束后,应该是有几个问题的大家需要注意一下:
1、算到这里,既然没有量纲了,可以直接相加吗?肯定是不可以的,虽然没有量纲了,他们的重要程度也是不一样的,俗话说的好,“盛世古董,乱世黄金”,在不同的是历史时刻价值都不一样,所以需要考虑实际情况进行分析,得到他们的权重,进而算得他们的得分情况,比如以线性为例:
2、计算出来的数据都是真实可靠的吗?方法是方法,但是是否使用,仍需要大家认真的思考。以下雨天数为例,80 天和 120 天规范化处理后成为零了,零的含义的绝产,可是 80 天和 120 天可能并不意味着绝产,这时候我们处理的方法就应该适当的进行转变了,可以这样:如果我们知道的粮食导致粮食绝产的下雨天,在上下限之间平均分配就就可以完成规范化的任务。ps:这也是我们需要认真学习建模原理的的道理,只有认真学了,才会在在需要进行适当发挥的时候有针对性的提出自己的想法。
有什么问题可以后台私聊我,如果交流的比较多的话,我以后可以在文章后边呼唤一个留言小程序,方便大家交流。
撰文 / 科研狗Doggy
排版 / 科研狗Doggy
-数学与物理-原创内容 转载请联系后台
往期精彩回顾
——————————————————————
经验 | 过来人谈数学建模
认知 | 时间也是巨大成本
软件 | MATLAB2014a软件及安装教程
——————————————————————
公众号ID: maths-physics *****************************************数学建模 || 物理学术竞赛软件安装 || 资料大礼包
数学、物理的历史
认知、逻辑的提升
数学与物理 伴你优秀起来Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。