赞
踩
原标题:数据挖掘中所需的概率论与数理统计知识(12年首次发布,23年重编公式且反复改进)
本文初稿发布于12年年底,十年后的22年底/23年初ChatGPT大火,在写ChatGPT通俗笔记的过程中,发现ChatGPT背后技术涉及到了RL/RLHF,于是又深入研究RL,研究RL的过程中又发现里面的数学公式相比ML/DL更多,于此激发我一边深入RL,一边系统重修微积分、概率统计,从而注意到了本文,先是重新排版且用LaTeX重新一一编辑所有公式,然后不断反复修改,以让之越发通俗,修改记录见本文最末
十年之前的2012年,我在微博上说,“今年5月接触DM,循序学习决策树.贝叶斯,SVM.KNN,感数学功底不足,遂补数学,从rickjin‘正态分布的前后今生’中感到数学史有趣,故买本微积分概念发展史读,在叹服前人伟大的创造之余,感微积分概念模糊,复习高等数学上册、概率论与数理统计,感概道:微积分是概数统计基础,概数统计则是DM&ML之必修课。”
然数学不是那么好学的,特别是很多教材不顾各个公式定理的先后发明顺序
所以我在写微积分、概率统计包括后面的RL笔记时,决定把各个公式/定理、概念/技术的介绍统一放到历史这个大背景下,结合国内外教材的各种写法,阐述各自的发明历史、从无到有的推导过程、以及为解决什么而出现。
毕竟太多教材一上来就展示了天才的想法,但对各种天才想法是怎么一步步想到的则因篇幅限制而不谈
如此,才会让我们理解更加深刻,且当我们不再执着于背各种公式/定理/概念/技术时,很多困惑都能更快解开,之前我也走了不少弯路。
本文分为五个部分,层层递进:
最终,你会发觉每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,毕竟只有了解各个定理、公式的发明历史、演进历程、相关联系,才能更好的理解你眼前所见到的知识,才能更好的运用之。
开头前言说,微积分是概数统计基础,概数统计则是DM&ML之必修课”,是有一定根据的,包括后续数理统计当中,如正态分布的概率密度函数中用到了相关定积分的知识,包括最小二乘法问题的相关探讨求证都用到了求偏导数的等概念,这些都是跟微积分相关的知识。故咱们第一节先复习下微积分的相关基本概念。
几乎没有一门新的数学分支是某个人单独的成果,如笛卡儿和费马的解析几何不仅仅是他们两人研究的成果,而是若干数学思潮在16世纪和17世纪汇合的产物,是由许许多多的学者共同努力而成。
甚至微积分的发展也不是牛顿与莱布尼茨两人之功。在17世纪下半叶,数学史上出现了无穷小的概念(单单无穷小、无穷大的概念就讨论了近200年),然就算牛顿和莱布尼茨提出了微积分,但微积分的概念尚模糊不清,在牛顿和莱布尼茨之后,后续经过一个多世纪的发展,诸多学者的努力,才真正清晰了微积分的概念。
也就是说,从无穷小到极限,再到微积分定义的真正确立,经历了几代人几个世纪的努力,而课本上所呈现的永远只是冰山一角。
可能很多人都没想到,虽然如今一般的数学教材讲微积分时,是先讲微分,再讲积分,可历史上是先有的积分而后才有的微分。那怎么理解这个积分的概念呢?
在古代比如阿基米德时代(公元前3世纪,阿基米德在世期间:公元前287年至公元前212年,顺带说下中国秦朝是:公元前221年至公元前206年),计算长方形、正方形的面积很好求,但如何求一条曲线比如一条底朝上的抛物线和直线BC所围成弓形的面积呢?
阿基米德在面对这个问题时是用的穷竭法
穷竭法可以精确地算出一些曲线围成的面积,但是它有个问题:穷竭法对于不同曲线围成的面积使用不同的图形去逼近。比如上面使用的是三角形,在其它地方就可能使用其它图形,不同图形证明技巧就会不一样,这样就比较麻烦。
到了一千年以后的十七世纪,大家就统一使用矩形来做逼近:不管你是什么曲线围成的图形,我都用无数个矩形来逼近你,而且都沿着x轴来做切割
举个例子,抛物线
再之后,积分这个词就被造出来了,用来表示“由无数个无穷小的面积组成的面积
比如当我们要求
但如果每次都用无穷个矩形去逼近曲线所围成的面积,则还是相对比较复杂的,有没有更简便的计算方式呢?这就需要引入微分了,而讲微分之前,需要先了解导数。
设有定义域和取值都在实数域中的函数
也可记为
由于导数的定义中用到了极限的定义,什么是极限呢?
设函数f(x) 在点x0 的某一去心邻域内有定义
- 如果存在常数
A ,对于任意给定的正数e (不论它多么小),总存在正数d ,使得当x 满足不等式0<|x−x0|<d 时,对应的函数值f(x)都满足不等式|f(x)−A|<e , 那么常数A 就叫做函数f(x) 时x→x0 的极限,记为limx→x0f(x)=A ,或f(x)→A ,当x→x0 - 换言之
limx→x0f(x)=A ,等价于:∀ε>0,∃δ>0 ,当0<|x−x0|<δ 时,|f(x)−A|<ε
有了导数,我们就能轻而易举地求一条曲线的极值(极大值或极小值)。因为只要导数不为0,曲线在这里就是在上升(大于0)或者下降(小于0)的,只有导数等于0的地方,才有可能是一个极值点
接下来我们考虑下速度位移公式,
反过来,对曲线在时刻
此举意味着什么呢,意味着当我们求某个函数比如
咱们先来看微分的定义,再通俗解释什么是微分。
设函数
对于区间内一点,当
实际上,前面讲了导数,而微分则是在导数的基础上加个后缀,即为:
定义倒是很简洁,但到底什么是微分呢?顾名思义,微分即微小的量,如何定义微小?极限!
为形象说明,举个例子,比如针对一个边长为
这个面积增加的结果用
说白了,
接下来,咱们讲介绍微积分学中最重要的一个公式:牛顿-莱布尼茨公式
如果函数
F(x) 是连续函数f(x)在区间[a, b]上的一个原函数,则
∫baf(x)dx=F(b)−F(a)
此公式也称为微积分基本定理。这个公式由此便打通了原函数与定积分之间的联系,它表明:一个连续函数在区间[a, b]上的定积分等于它的任一个原函数在区间[a, b]上的增量。
相当于函数
如此,便给定积分提供了一个有效而极为简单的计算方法,大大简化了定积分的计算手续。比如针对
对于二元函数
定义 设函数
类似的,二元函数对
此外,上述内容只讲了一阶偏导,而有一阶偏导就有二阶偏导,这里只做个简要介绍,具体应用具体分析,或参看高等数学上下册相关内容。接下来,进入本文的主题,从第二节开始。
定义:随机试验E的所有结果构成的集合称为E的 样本空间,记为S={e},
称S中的元素e为样本点,一个元素的单点集称为基本事件
在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率。从这个定义中,我们可以得出P(A|B) = |A∩B|/|B|,分子、分母都除以|Ω|得到
有时候也称为后验概率。
同时,P(A|B)与P(B|A)的关系如下所示:
1、全概率公式
假设{ Bn : n = 1, 2, 3, ... } 是一个概率空间的有限或者可数无限的分割,且每个集合Bn是一个可测集合,则对任意事件A有全概率公式:
又因为
在离散情况下,上述公式等于下面这个公式:
但后者在连续情况下仍然成立:此处N是任意随机变量。这个公式还可以表达为:"A的先验概率等于A的后验概率的先验期望值。
2、贝叶斯公式
贝叶斯定理(Bayes' theorem),是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。
如此篇blog第二部分所述“据维基百科上的介绍,贝叶斯定理实际上是关于随机事件A和B的条件概率和边缘概率的一则定理。
如上所示,其中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中,每个名词都有约定俗成的名称:
按这些术语,Bayes定理可表述为:后验概率 = (相似度*先验概率)/标准化常量,也就是說,后验概率与先验概率和相似度的乘积成正比。另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:后验概率 = 标准相似度*先验概率。” 综上,自此便有了一个问题,如何从从条件概率推导贝叶斯定理呢?
根据条件概率的定义,在事件B发生的条件下事件A发生的概率是
同样地,在事件A发生的条件下事件B发生的概率
整理与合并这两个方程式,我们可以找到
这个引理有时称作概率乘法规则。上式两边同除以P(B),若P(B)是非零的,我们可以得到贝叶斯定理
何谓随机变量?即给定样本空间
如果随机变量
如果
也就是说,随机变量分为离散型随机变量,和连续型随机变量,当要求随机变量的概率分布的时候,要分别处理之,如:
再换言之,对离散随机变量用求和得全概率,对连续随机变量用积分得全概率。这点包括在第4节中相关期望.方差.协方差等概念会反复用到,望读者注意之。
定义:取值至多可数的随机变量为离散型的随机变量。概率分布(分布律)为
且
(一)(0-1)分布
若X的分布律为:
同时,p+q=1,p>0,q>0,则则称X服从参数为p的0-1分布,或两点分布。
此外,(0-1)分布的分布律还可表示为:
我们常说的抛硬币实验便符合此(0-1)分布。
(二)、二项分布
二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。举个例子就是,独立重复地抛n次硬币,每次只有两个可能的结果:正面,反面,概率各占1/2。
设A在n次伯努利试验中发生k次,则
并称X服从参数为p的二项分布,记为:
与此同时,
(三)、泊松分布(Poisson分布)
Poisson分布(法语:loi de Poisson,英语:Poisson distribution),即泊松分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。
若随机变量X的概率分布律为
称X服从参数为λ的泊松分布,记为:
有一点提前说一下,泊松分布中,其数学期望与方差相等,都为参数λ。
泊松分布的来源
在二项分布的伯努力试验中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= n p比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物。证明如下。
首先,回顾e的定义:
二项分布的定义:
如果令
上述过程表明:Poisson(λ) 分布可以看成是二项分布 B(n,p) 在 np=λ,n→∞ 条件下的极限分布。
最大似然估计
给定n个样本值
对函数L取相对于λ的导数并令其等于零:
解得λ从而得到一个驻点(stationary point):
检查函数L的二阶导数,发现对所有的λ 与ki大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点:
证毕。OK,上面内容都是针对的离散型随机变量,那如何求连续型随机变量的分布律呢?请接着看以下内容。
实际中,如上2.2.2节所述,
故连续型随机变量也就不能像离散型随机变量那般可以用分布律来描述它,那怎么办呢(事实上,只有因为连续,所以才可导,所以才可积分,这些东西都是相通的。当然了,连续不一定可导,但可导一定连续)?
既然无法研究其全部,那么我们可以转而去研究连续型随机变量所取的值在一个区间(x1,x2] 的概率:P{x1 < X <=x2 },同时注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1},故要求P{x1 < X <=x2 } ,我们只需求出P{X <=x2} 和 P{X <=x1} 即可。
针对随机变量X,对应变量x,则P(X<=x) 应为x的函数。如此,便引出了分布函数的定义。
定义:随机变量X,对任意实数x,称函数F(x) = P(X <=x ) 为X 的概率分布函数,简称分布函数。
F(x)的几何意义如下图所示:
且对于任意实数x1,x2(x1<x2),有P{x1<X<=x2} = P{X <=x2} - P{X <= x1} = F(x2) - F(x1)。
同时,F(X)有以下几点性质:
定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实数x,有:
则称X为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。连续型随机变量的概率密度f(x)有如下性质:
针对上述第3点性质,我重点说明下:
故综合上述两点,便可得出上述性质3
且如果概率密度函数
接下来,介绍三种连续型随机变量的分布,由于均匀分布及指数分布比较简单,所以,一图以概之,下文会重点介绍正态分布。
(一)、均匀分布
若连续型随机变量X具有概率密度
则称X 在区间(a,b)上服从均匀分布,记为X~U(a,b)。
易知,f(x) >= 0,且其期望值为(a + b)/ 2。
(二)、指数分布
若连续型随机变量X 的概率密度为
其中λ>0为常数,则称X服从参数为λ的指数分布。记为
(三)、正态分布
在各种公式纷至沓来之前,我先说一句:正态分布没有你想的那么神秘,它无非是研究误差分布的一个理论,因为实践过程中,测量值和真实值总是存在一定的差异,这个不可避免的差异即误差,而误差的出现或者分布是有规律的,而正态分布不过就是研究误差的分布规律的一个理论。
OK,若随机变量
我们便称这样的分布为正态分布或高斯分布。
正态分布的数学期望值或期望值等于位置参数,决定了分布的位置;其方差的开平方,即标准差等于尺度参数,决定了分布的幅度。正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。它有以下几点性质,如下图所示:
正态分布的概率密度曲线则如下图所示:
当固定尺度参数
而当固定位置参数,改变尺度参数的大小时,f(x)图形的对称轴不变,形状在改变,越小,图形越高越瘦,越大,图形越矮越胖。如下图所示:
故有咱们上面的结论,在正态分布中,称
而我们通常所说的标准正态分布是位置参数, 尺度参数的正态分布,记为:
相关内容如下两图总结所示(来源:大嘴巴漫谈数据挖掘):
在概率论和统计学中,数学期望分两种(依照上文第二节相关内容也可以得出),一种为离散型随机变量的期望值,一种为连续型随机变量的期望值。
不过,并不是每一个随机变量都有期望值的,因为有的时候这个积分不存在。如果两个随机变量的分布相同,则它们的期望值也相同。
方差
在概率论和统计学中,一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。方差的算术平方根称为该随机变量的标准差。
其定义为:如果
其中,μ为平均数,N为样本总数。
分别针对离散型随机变量和连续型随机变量而言,方差的分布律和概率密度如下图所示:
标准差
标准差(Standard Deviation),在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义为方差的算术平方根,反映组内个体间的离散程度:
简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。例如,两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二个集合具有较小的标准差。
前面说过,方差的算术平方根称为该随机变量的标准差,故一随机变量的标准差定义为:
须注意并非所有随机变量都具有标准差,因为有些随机变量不存在期望值。 如果随机变量为具有相同概率,则可用上述公式计算标准差。
上述方差.标准差等相关内容,可用下图总结之:
样本标准差
在真实世界中,除非在某些特殊情况下,找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。说白了,就是数据海量,想计算总体海量数据的标准差无异于大海捞针,那咋办呢?抽取其中一些样本作为抽样代表呗。
而从一大组数值当中取出一样本数值组合,进而,我们可以定义其样本标准差为:
样本方差
协方差
下图即可说明何谓协方差,同时,引出相关系数的定义:
相关系数
如上篇kd树blog所述相关系数 ( Correlation coefficient )的定义是:
(其中,E为数学期望或均值,D为方差,D开根号为标准差,E{ [X-E(X)] [Y-E(Y)]}称为随机变量X与Y的协方差,记为Cov(X,Y),即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数,记为)
相关系数衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。
具体的,如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:
根据相关系数,相关距离可以定义为:
这里只对相关系数做个简要介绍,欲了解机器学习中更多相似性距离度量表示法,可以参看上篇kd树blog第一部分内容。
自此,已经介绍完期望方差协方差等基本概念,但一下子要读者接受那么多概念,怕是有难为读者之嫌,不如再上几幅图巩固下上述相关概念吧(来源:大嘴巴满谈数据挖掘):
协方差矩阵
由上,我们已经知道:协方差是衡量两个随机变量的相关程度。且随机变量 之间的协方差可以表示为
故根据已知的样本值可以得到协方差的估计值如下:
可以进一步地简化为:
如此,便引出了所谓的协方差矩阵:
主成成分分析
尽管从上面看来,协方差矩阵貌似很简单,可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵,这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看,也就是说能够找出一组最佳的基以紧凑的方式来表达数据。这个方法在统计学中被称为主成分分析(principal components analysis,简称PCA),在图像处理中称为Karhunen-Loève 变换(KL-变换)。
根据wikipedia上的介绍,主成分分析PCA由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征矢量)与它们的权值(即特征值)。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大。
然为何要使得变换后的数据有着最大的方差呢?我们知道,方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模型的方差很大,那就说明模型不稳定了。但是对于我们用于机器学习的数据(主要是训练数据),方差大才有意义,不然输入的数据都是同一个点,那方差就为0了,这样输入的多个数据就等同于一个数据了。
简而言之,主成分分析PCA,留下主成分,剔除噪音,是一种降维方法,限高斯分布,n维眏射到k维
也就是说,高斯是0均值,其方差定义了信噪比,所以PCA是在对角化低维表示的协方差矩阵,故某一个角度而言,只需要理解方差、均值和协方差的物理意义,PCA就很清晰了。
本节先给出现在一般的概率论与数理统计教材上所介绍的2个定理,然后简要介绍下中心极限定理的相关历史。
独立中心极限定理如下两图所示:
此外,据wikipedia上的介绍,包括上面介绍的棣莫弗-拉普拉斯定理在内,历史上前后发展了三个相关的中心极限定理,具体可以参考Wikipedia
1776年,拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题,最终的问题涉及独立随机变量求和的概率计算,也就是计算如下的概率值
令 Sn=X1+X2+⋯+Xn, 那么
在这个问题的处理上,拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧,他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法,而这一方法经过几代概率学家的发展,在现代概率论里面占有极其重要的位置。基于这一分析方法,拉普拉斯通过近似计算,在他的1812年的名著《概率分析理论》中给出了中心极限定理的一般描述:
[定理Laplace,1812]设 ei(i=1,⋯n)为独立同分布的测量误差,具有均值μ和方差σ2。如果λ1,⋯,λn为常数,a>0,则有
这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了,在现在大学本科的教材上,包括包括本文主要参考之一盛骤版的概率论与数理统计上,通常给出的是中心极限定理的一般形式:
[Lindeberg-Levy中心极限定理] 设X1,⋯,Xn独立同分布,且具有有限的均值μ和方差σ2,则在n→∞时,有
多么奇妙的性质,随意的一个概率分布中生成的随机变量,在序列和(或者等价的求算术平均)的操作之下,表现出如此一致的行为,统一的规约到正态分布。
概率学家们进一步的研究结果更加令人惊讶,序列求和最终要导出正态分布的条件并不需要这么苛刻,即便X1,⋯,Xn并不独立,也不具有相同的概率分布形式,很多时候他们求和的最终归宿仍然是正态分布。
在正态分布、中心极限定理的确立之下,20世纪之后,统计学三大分布χ2分布、t分布、F分布也逐步登上历史舞台:
如上所述,中心极限定理的历史可大致概括为:
如今,中心极限定理被认为是(非正式地)概率论中的首席定理。
本节将结合《数理统计学简史》一书,从早期概率论的发展、棣莫弗的二项概率逼近讲到贝叶斯方法、最小二乘法、误差与正态分布等问题,有详有略,其中,重点阐述正态分布的历史由来。
相信,你我可以想象得到,我们现在眼前所看到的正态分布曲线虽然看上去很美,但数学史上任何一个定理的发明几乎都不可能一蹴而就,很多往往经历了几代人的持续努力。因为在科研上诸多观念的革新和突破是有着很多的不易的,或许某个定理在某个时期由某个人点破了,现在的我们看来一切都是理所当然,但在一切没有发现之前,可能许许多多的顶级学者毕其功于一役,耗尽一生,努力了几十年最终也是无功而返。
如上文前三节所见,现在概率论与数理统计的教材上,一上来介绍正态分布,然后便给出其概率密度分布函数,却从来没有说明这个分布函数是通过什么原理推导出来的。如此,可能会导致你我在内的很多人一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布,却对这个分布的来龙去脉知之甚少。
本文接下来的第四节将结合陈希儒院士的《数理统计学简史》及“正态分布的前世今生”为你揭开正态分布的神秘面纱。
上文中已经给出了正态分布的相关定义,咱们先再来回顾下。如下两图所示(来源:大嘴巴漫谈数据挖掘):
相信,经过上文诸多繁杂公式的轰炸,读者或有些许不耐其烦,咱们接下来讲点有趣的内容:历史。下面,咱们来结合数理统计简史一书,及正态分布的前世今生系列,从古至今论述正态分布的历史由来。
(一)惠更新的论赌博的计算
所谓概率,即指一个事件发生,一种情况出现的可能性大小的数量指标,介于0和1之间,这个概念最初形成于16世纪,说来可能令你意想不到,凡事无绝对,早期很多概率论中的探讨却与掷骰子等当今被定义为违法犯罪的赌博活动有着不可分割的联系,可以说,这些赌博活动反而推动了概率论的早期发展(但如今,还是要强调一句,拒绝赌博,哪怕只是小赌)。
历史是纷繁多杂的,咱们从惠更斯的机遇的规律一书入手,此人指导过微积分的奠基者之一的莱布尼兹学习数学,与牛顿等人也有交往,终生未婚。如诸多历史上有名的人物一般,他们之所以被后世的人们记住,是因为他们在某一个领域的杰出贡献,这个贡献可能是提出了某一个定理或者公式,换句话来说,就是现今人们口中所说的代表作,一个意思。
而惠更新为当代人们所熟知的应该是他在《摆式时钟或用于时钟上的摆的运动的几何证明》、《摆钟》等论文中提出了物理学史上钟摆摆动周期的公式:
(二)创立数学期望
与此同时,惠更斯1657年发表了《论赌博中的计算》,被认为是概率论诞生的标志。同时对二次曲线、复杂曲线、悬链线、曳物线、对数螺线等平面曲线都有所研究。
《论赌博中的计算》中,惠更斯先从关于公平赌博值的一条公理出发,推导出有关数学期望的三个基本定理,如下述内容所示:
对这一公理至今仍有争议。所谓公平赌注的数额并不清楚,它受许多因素的影响。但惠更斯由此所得关于数学期望的3 个命题具有重要意义。这是数学期望第一次被提出,由于当时概率的概念还不明确,后被拉普拉斯( Laplace ,1749 —1827) 用数学期望来定义古典概率。在概率论的现代表述中,概率是基本概念,数学期望则是二级概念,但在历史发展过程中却顺序相反(没想到吧,^_^,还有很多你没想到的事情,且听娓娓道来)。
关于数学期望的三个命题为:
这些今天看来都可作为数学期望定义,不准确的说,数学期望来源于取平均值。同时,根据上述惠更斯的3个命题不难证明:若某人在赌博中分别以概率p1...,pk(p1+..+pk=1)分别赢得a1,..ak元,那么其期望为p1*a1+...+pk*ak,这与本文第一节中关于离散型随机变量的期望的定义完全一致(各值与各值概率乘积之和)。
但惠更新关于概率论的讨论局限于赌博中,而把概率论由局限于对赌博机遇的讨论扩展出去的则得益于伯努利,他在惠更新的论赌博中的计算一书出版的56年,即1733年出版了划时代的著作:《推测术》。伯努利在此书中,不仅对惠更斯的关于掷骰子等赌博活动中出现的额各种情况的概率进行了计算,而且还提出了著名的“大数定律”,这个定律在历史上甚至到今天,影响深远,后续诸多的统计方法和理论都是建立在大数定律的基础上。
(三) 伯努利的大数定律及其如何而来
同样,咱们在读中学的时候,之所以记住了伯努利这个人,可能不只是因为物理课上老师所讲的伯努利方程
当然,伯努利的贡献不仅在此,而在于他的大数定律。那何谓伯努利大数定律呢?
设在n次独立重复试验中,事件X发生的次数为
定理表明事件发生的频率依概率收敛于事件的概率。定理以严格的数学形式表达了频率的稳定性。就是说当n很大时,事件发生的频率于概率有较大偏差的可能性很小。
这个定理如何而来的呢?
咱们来看一个简单的袋中抽球的模型,袋中有a个白球,b个黑球,则从袋中取出白球的概率为
伯努利试图证明的是:用X/N 估计p 可以达到事实上的确定性,即:任意给定两个数ε>0和η>0,取足够大的抽取次数N,使得事件
换句话说,我们需要证明的是当N充分无限大时,X/N 无限逼近于p,用公式表达即为:
(N趋于无穷大)
尽管现在我们看来,上述这个结论毫无疑问是理所当然的,但直到1909年才有波莱尔证明。此外,此伯努利大数定律是我们今天所熟知的契比雪夫不等式的简单推论,但须注意的是在伯努利那个时代,并无“方差”这个概念,更不用说从这个不等式而推论出伯努利大数定律了。
此外,常用的大数定律除了伯努利大数定律之外,还有辛钦大数定律、柯尔莫哥洛夫强大数定律和重对数定律等定律。这里稍微提下辛钦大数定律,如下图所示
在1733年,棣莫弗发展了用正态分布逼近二项分布的方法,这对于当时而言,是一实质性的深远改进。
同上文中的惠更新、伯努利一样,人们熟悉棣莫弗,想必是因为著名的棣莫弗公式,如下:
据数理统计学简史一书上的说明,棣莫弗之所以投身到二项概率的研究,非因伯努利之故,而又是赌博问题。有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的一个问题:A,B两人在赌场里赌博,A,B各自的获胜概率是p和q=1−p,赌n局,若A赢的局数X>np,则A付给赌场X−np元,否则B付给赌场np−X元。问赌场挣钱的期望值是多少?按定义可知,此期望值为:
上式的
当m=N/2时,N趋于无穷
也就是说上述问题的本质上是上文第一节中所讲的一个二项分布。虽然从上述公式可以集结此问题,但在N很大时,
棣莫弗后来虽然做了一些计算并得到了一些近似结果,但是还不够,随后有人讲棣莫弗的研究工作告诉给了斯特林,于是,便直接催生了在数学分析中必学的一个重要公式斯特林公式(斯特林公式最初发表于1730年,而后棣莫弗改进了斯特林公式):
1733年,棣莫弗有了一个决定性意义的举动,他证明了当N趋于去穷时,有下列式子成立:
不要小瞧了这个公式。当它与上面给出的这个公式
根据上面式子,近似地以定积分代替和,得到下式:
不知道,当读者读到这里的时候,是否从上式看出了些许端倪,此式可隐藏了一个我们习以为常却极其重要的概念。OK,或许其形式不够明朗,借用rickjin的式子转化下:
没错,正态分布的概率密度(函数)在上述的积分公式中出现了!于此,我们得到了一个结论,原来二项分布的极限分布便是正态分布。与此同时,还引出了统计学史上占据重要地位的中心极限定理。
「棣莫弗-拉普拉斯定理」:设随机变量Xn(n=1,2...)服从参数为p的二项分布,则对任意的x,恒有下式成立:
我们便称此定理为中心极限定理。而且还透露着一个极为重要的信息:1730年,棣莫弗用二项分布逼近竟然得到了正太密度函数,并首次提出了中心极限定理。
还没完,随后,在1744年,拉普拉斯证明了:
最终,1780年,拉普拉斯建立了中心极限定理的一般形式(也就是上文3.2节中所讲的中心极限定理的一般形式):
「Lindeberg-Levy中心极限定理」设X1,⋯,Xn独立同分布,且具有有限的均值μ和方差σ2,则在n→∞时,有
棣莫弗的工作对数理统计学有着很大的影响,棣莫弗40年之后,拉普拉斯建立中心极限定理的一般形式,20世纪30年代最终完成独立和中心极限定理最一般的形式,在中心极限定理的基础之上,统计学家们发现当样本量趋于无穷时,一系列重要统计量的极限分布如二项分布,都有正态分布的形式,也就是说,这也构成了数理统计学中大样本方法的基础。
此外,从上面的棣莫弗-拉普拉斯定理,你或许还没有看出什么蹊跷。但我们可以这样理解:若取c充分大,则对足够大的N,事件
而这就是上文中所讲的伯努利大数定律(注:上面讨论的是对称情况,即p=1/2的情况)。
我之所以不厌其烦的要论述这个棣莫弗的二项概率逼近的相关过程,是想说明一点:各个定理.公式彼此之前是有着紧密联系的,要善于发现其中的各种联系。
同时,还有一个问题,相信读者已经意识到了,如本文第一节内容所述,大部分概率论与数理统计教材讲正态分布的时候
随后,教材上便开始讲数学期望,方差等概念,最后才讲到中心极限定理。或许在读者阅读本文之后,这些定理的先后发明顺序才得以知晓。殊不知:正态分布的概率密度(函数)形式首次发现于棣莫弗-拉普拉斯中心极限定理中,即先有中心极限定理,而后才有正态分布(通过阅读下文4.6节你将知道,高斯引入正太误差理论,才成就了正态分布,反过来,拉普拉斯在高斯的工作之上用中心极限定理论证了正态分布)。
如rickjin所言:“学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的,现代的数学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净。DNA双螺旋结构的发现者之一James Waston在他的名著《DNA双螺旋》序言中说:‘科学的发现很少会像很多人所想象的一样,按照直接了当合乎逻辑的方式进行的。’ ”
前面,介绍了惠更斯、伯努利和棣莫弗等人的重大成果,无疑在这些重要发明中,二项分布都占据着举重轻重的地位。这在早期的概率统计史当中,也是唯一一个研究程度很深的分布。但除了伯努利的大数定律及棣莫弗的二项逼近的研究成果外,在18世纪中叶,为了解决二项分布概率的估计问题,出现了一个影响极为广泛的贝叶斯方法,贝叶斯方法经过长足的发展,如今已经成为数理统计学中的两个主要学派之一:贝叶斯学派,牢牢占据数理统计学领域的半壁江山。
贝叶斯当时发表了一篇题为An essay towards solving a problem in the doctrine of chances(机遇理论中一个问题的解)的遗作,此文在他发表后很长一段时间起,在学术界没有引起什么反响,直到20世纪以来,突然受到人们的重视,此文也因此成为贝叶斯学派最初的奠基石(又一个梵高式的人物)。
有人说贝叶斯发表此文的动机是为了解决伯努利和棣莫弗未能解决的二项分布概率P的“逆概率”问题。所谓逆概率,顾名思义,就是求概率问题的逆问题:已知时间的概率为P,可由之计算某种观察结果的概率如何;反过来,给定了观察结果,问由之可以对概率P作何推断。也就是说,正概率是由原因推结果,称之为概率论;而逆概率是结果推原因,称之为数理统计。
由于本文中,重点不在贝叶斯定理,而本文第一节之2.1小节已对其做简要介绍,再者,此文从决策树学习谈到贝叶斯分类算法、EM、HMM第二部分也详细介绍过了贝叶斯方法,故为本文篇幅所限,不再做过多描述。
事实上,在成百上千的各式各样的攻击方法中,取算术平均恐怕是最广为人知使用也最为广泛的方法,因为可能一个小学生都知道使用算术平均来计算自己每天平均花了多少零花钱而以此作为向爸妈讨要零花钱的依据。而我们大多数成年人也经常把“平均说来”挂在嘴边。故此节要讲的最小二乘法其实并不高深,它的本质思想即是来源于此算术平均的方法。
不太精确的说,一部数理统计学的历史,就是从纵横两个方向对算术平均进行不断深入研究的历史,
而算术平均也是解释最小二乘法的最简单的例子。使误差平方和达到最小以寻求估计值的方法,则称为最小二乘估计(当然,取平方和作为目标函数知识众多可取的方法之一,例如也可以取误差4次方或绝对值和,取平方和是人类千百年实践中被证实行之有效的方法,因此被普遍采用)。
何谓最小二乘法?实践中,常需寻找两变量之间的函数关系,比如测定一个刀具的磨损速度,也就是说,随着使用刀具的次数越多,刀具本身的厚度会逐渐减少,故刀具厚度与使用时间将成线性关系,假设符合
最理想的情形就是选取这样的a、b,能使直线
这种通过偏差的平方和为最小的条件来确定常数a、b的方法,即为最小二乘法。最小二乘法的一般形式可表述为:
在此,说点后话,最小二乘法是与统计学有着密切联系的,因为观测值有随机误差,所以它同正态分布一样与误差论有着密切联系(说实话,最小二乘法试图解决的是误差最小的问题,而正态分布则是试图寻找误差分布规律的问题,无论是最小二乘法,还是正态分布的研究工作,至始至终都围绕着误差进行)。
那么,最小二乘法是如何发明的呢?据史料记载,最小二乘法最初是由法国数学家勒让德于1805年发明的。那勒让德发明它的动机来源于哪呢?
18世纪中叶,包括勒让德、欧拉、拉普拉斯、高斯在内的许多天文学家和数学家都对天文学上诸多问题的研究产生了浓厚的兴趣。比如以下问题:
这些问题都可以用如下数学模型描述:我们想估计的量是
如何通过多组观测数据求解出参数
但是面临的一个问题是,有n组观测数据,p+1个变量,如果n>p+1,则得到的线性矛盾方程组,无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察,把n个线性方程分为p+1组,然后把每个组内的方程线性求和后归并为一个方程,从而就把n个方程的方程组化为p+1个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于经验化,无法形成统一处理这一类问题的一个通用解决框架。
以上求解线性矛盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为:
我们求解出导致累积误差最小的参数即可
上面我们已经看到,是勒让德最初发明的最小二乘法,那为何历史上人们常常把最小二乘法的发明与高斯的名字联系起来呢?(注:勒让德时期的最小二乘法还只是作为一个处理测量数据的代数方法来讨论的,实际上与统计学并无多大关联,只有建立在了测量误差分布的概率理论之后,这个方法才足以成为一个统计学方法。尽管拉普拉斯用他的中心极限定理定理也可以推导出最小二乘法,但无论是之前的棣莫弗,还是当时的勒让德,还是拉普拉斯,此时他们这些研究成果都还只是一个数学表达式而非概率分布)。
因为1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,即为高斯-马尔可夫定理。也就是说勒让德最初提出了最小二乘法,而却是高斯让最小二乘法得以巩固而影响至今。且高斯对最小二乘法的最大贡献在于他是建立在正太误差分布的理论基础之上的(后续更是导出了误差服从正态分布的结论),最后,1837年,统计学家们正式确立误差服从正态分布,自此,人们方才真正确信:观测值与理论值的误差服从正态分布。
十八世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则,千百年来的数据使用经验说明算术平均能够消除误差,提高精度。平均有如此的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差应该服从怎样的概率分布?算术平均的优良性和误差的分布有怎样的密切联系?
伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括:
用数学的语言描述,也就是说误差分布函数f(x)关于0对称分布,概率密度随|x|增加而减小,这两个定性的描述都很符合常识。
许多天文学家和数学家开始了寻找误差分布曲线的尝试。托马斯•辛普森(Thomas Simpson,1710-1761)先走出了有意义的一步。
Simpson证明了,对于如下的一个概率分布
Simpson的误差态分布曲线
有这样的估计:
也就是说,
在1772-1774年间,拉普拉斯也加入到了寻找误差分布函数的队伍中。与辛普森不同,拉普拉斯不是先假定一种误差分后去设法证明平均值的优良性,而是直接射向应该去怎么的分布为误差分布,以及在确定了误差分布之后,如何根据观测值
拉普拉斯假定误差密度函数f(x)满足如下性质:
由此,最终1772年,拉普拉斯求得的分布密度函数为:
这个概率密度函数现在被称为拉普拉斯分布:
以这个函数作为误差密度,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值,即用什么方法通过观测值
拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相似:假设先验分布是均匀的,计算出参数的后验分布后,取后验分布的中值点,即1/2分位点,作为参数估计值。可是基于这个误差分布函数做了一些计算之后,拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果,故拉普拉斯最终还是没能搞定误差分布的问题。
至此,整个18世纪,可以说,寻找误差分布的问题,依旧进展甚微,下面,便将轮到高斯出场了,历史总是出人意料,高斯以及其简单的手法,给了这个误差分布的问题一个圆满的解决,其结果也就成为了数理统计发展史上的一块重要的里程碑。
事实上,棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式,到了1780年后,拉普拉斯也推出了中心极限定理的一般形式,但无论是棣莫弗,还是拉普拉斯,此时他们这些研究成果都还只是一个数学表达式而非概率分布,也就是压根就还没往误差概率分布的角度上去思索,而只有到了1809年,高斯提出“正太误差”的理论之后,它正太理论才得以“概率分布“的身份进入科学殿堂,从而引起人们的重视。
追本溯源,正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢?请看下文。
1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!
高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的呢?请看下文。
跟上面一样,还是设真值为
到此为止,高斯的作法实际上与拉普拉斯相同,但在继续往下进行时,高斯提出了两个创新的想法。
第一个创新的想法便是:高斯并没有像前面的拉普拉斯那样采用贝叶斯的推理方式,而是直接取
现在我们把
高斯的第二点创新的想法是:他把整个问题的思考模式倒过来,既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之,极大似然估计导出的就应该是算术平均),所以高斯猜测:
然后高斯再去寻找相应的误差密度函数
而这恰巧是我们所熟知的正态分布的密度函数
但,高斯是如何证明的呢?也就是说,高斯是如何一下子就把上面(11)式所述的概率密度函数给找出来的呢?如下图所示(摘自数理统计学简史第127页注2,图中开头所说的高斯的第2原则就是上面所讲的高斯的第二点创新的想法,而下图最后所说的(11)式就是上面推导出来的概率密度函数):
进一步,高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差
要使得这个概率最大,必须使得
高斯的这项工作对后世的影响极大,它使正态分布同时有了”高斯分布“的名称,不止如此,后世甚至也把最小二乘法的发明权也归功于他,由于他的这一系列突出贡献,人们 采取了各种形式纪念他,如现今德国10马克的钞票上便印有这高斯头像及正态分布的密度曲线
至此,咱们来总结下:
也就是上面说到的高斯的第二点创新的想法“他把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之,极大似然估计导出的就应该是算术平均)”存在着隐患,而这一隐患的消除又还得靠咱们的老朋友拉普拉斯解决了。
受高斯启发,拉普拉斯将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。他指出如果误差可以看成许多微小量的叠加,则根据他的中心极限定理,随机误差理应当有高斯分布(换言之,按中心极限定理来说,正态分布是由大量的但每一个作用较小的因素的作用导致而成)。而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。
至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位。在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。不过因为高斯在数学家中的名气实在是太大,正态分布的桂冠还是更多的被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布,两者并用。
至此,正态分布从首次出现到最终确立,其时间简史为:
如上所见,是先有的中心极限定理,而后才有的正态分布(当然,最后拉普拉斯用中心极限定理论证了正态分布),能了解这些历史,想想,都觉得是一件无比激动的事情。所以,我们切勿以为概率论与数理统计的教材上是先讲的正态分布,而后才讲的中心极限定理,而颠倒原有历史的发明演进过程。
如本blog内之前所说:凡是涉及到要证明的东西、理论,便一般不是怎么好惹的东西。绝大部分时候,看懂一个东西不难,但证明一个东西则需要点数学功底,进一步,证明一个东西也不是特别难,难的是从零开始发明创造这个东西的时候,则更显艰难(因为任何时代,大部分人的研究所得都不过是基于前人的研究成果,前人所做的是开创性工作,而这往往是最艰难最有价值的,他们被称为真正的先驱。牛顿也曾说过,他不过是站在巨人的肩上。你,我则更是如此)。
上述第4节已经介绍了正态分布的历史由来,但尚未涉及数学推导或证明,下面,参考概率论沉思录,引用“正态分布的前世今生”等相关内容,介绍推导正太分布的4种方法,曲径通幽,4条小径,殊途同归,进一步领略正态分布的美妙。
「注:本节主要整编自rickjin写的"正态分布的前后今生"系列」
第一条小径是高斯找到的,高斯以如下准则作为小径的出发点
误差分布导出的极大似然估计 = 算术平均值
设真值为
为求极大似然估计,令
整理后可以得到
令
由于高斯假设极大似然估计的解就是算术平均
在上式中取
从而此时有
所以得到
由于
第二条小径是天文学家John Hershcel和物理学家麦克斯韦(Maxwell)发现的。1850年,天文学家Herschel在对星星的位置进行测量的时候,需要考虑二维的误差分布,为了推导这个误差的概率密度分布
这两个准则对于Herschel考虑的实际测量问题看起来都很合理。由准则1,可以得到应该具有如下形式
把这个函数转换为极坐标,在极坐标下的概率密度函数设为
由准则2,
取
令
从这个函数方程中可以解出
而
1860年,我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布
所以这个分布其实是三个正态分布的乘积。你的物理老师是否告诉过你其实这个分布就是三维正态分布?
Herschel-Maxwell推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。美国诺贝尔物理学奖得主费曼(Feymann)每次看到一个有
第三条道是一位电气工程师,Vernon D. Landon 给出的。1941年,Landon 研究通信电路中的噪声电压,通过分析经验数据他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差
用数学的语言描述:如果
把
记
对于微小的随机扰动
对于新的噪声电压是x′=x+e,方差由
比较(8)和(9)这两个式子,可以得到如下偏微分方程
而这个方程就是物理上著名的扩散方程(diffusion equation),求解该方程就得到
又一次,我们推导出了正态分布!
概率论沉思录作者E.T.Jaynes对于这个推导的评价很高,认为Landon的推导本质上给出了自然界的噪音形成的过程。他指出这个推导基本上就是中心极限定理的增量式版本,相比于中心极限定理来说,是一次性累加所有的因素,Landon的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。
还有一条小径是基于最大熵原理的,物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,不过难以确认这条道的发现者是否是Jaynes本人。
熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论,读者中很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,E.T.Jaynes对这条道也是偏爱有加。
对于一个概率分布
如果给定一个分布函数
这个结论的推导数学上稍微有点复杂,不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是很简单的,证明的思路如下。
考虑两个概率分布
于是
所以
熟悉信息论的读者都知道,这个式子是信息论中的很著名的结论:一个概率分布的熵总是小于相对熵。上式要取等号只有取
对于
由于的均值方差有如下限制:
而当
E.T.Jaynes显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。这也容易理解,因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。
所谓横看成岭侧成峰,远近高低各不同,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束:
Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
—Henri Poincaré
初学者在学习AI和RL的过程当中,一般有一半的问题都是因为数学不够扎实,而之所以会出现一半的数学问题,其中又有一半的原因是因为大部分数学教材不够通俗
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。