当前位置:   article > 正文

现代信号处理笔记 1 概率论基础知识(Review of Probability)_张颢笔记

张颢笔记


一、什么是事件、概率、统计?

现代数字信号处理1 2019 张颢 02 第一讲2 概率论与随机过程基本知识回顾1 - YouTube

首先要熟悉以下五个概念:

  1. 事件的不确定性:事件发生之前,没办法事先确定
  2. ​​​​​统计实验:事件有了不确定性(Uncertainty)。爱因斯坦:我们认同不确定的存在,是人类对自身无知的妥协(扔硬币,如果对生物力学有足够的了解,就可以计算出在抛出时,给了多大的力,如果对刚体力学有很深理解,就知道硬币在空中怎样运动…)。
  3. 样本点(samples):可能出现的事件
  4. 样本空间(sample space):样本点的集合(所有的吗?)
  5. 样本点赋值(概率,probability),描述可能性的大小

所有的这一切都是先验

其次,我们应该知道概率和统计的差异:完全风马牛不相及,基本理念、手段都不同。

Decision

Model

Data

(3)用模型做预测、决策,这个过程叫概率

(1)上面谈的就是模型,任何一个统计模型,界定的都是两个东西:样本空间是什么,概率是什么。

(2)数据是上帝给的,模型是人造的。所以数据的层次更高。数据分析处理形成模型,这个过程叫做统计

这门课是统计意义上的信号处理,但是今天谈概率。所以要有样本空间,还要给样本空间中的样本点赋予概率。


二、一些前提

需要先知道以下三个概念

1、Bertrand Paradox(悖论)

一下三种哪个是对的?见图 1。

图 1样本空间示例
图 1 样本空间示例

所有结果都是对的,因为三种我们选点的基础是不一样的。圆周、圆盘、半径,选点的基础是什么,这个就是样本空间。所以样本空间是最重要的东西

2、随机变量(Random Variables)

很容易误导(Misleading)。其实一点随机性都没有,是从样本空间映射到实数轴的一个确定性函数 (Quantization),没有一点随机性。它所起到的作用是量化。(抛硬币,正面+反面,是不可能的,更不可能平方开根号,所以要引入随机变量)优先要把统计实验的结果全部都变成数。

 3、分布

分布的概率只能定义在样本空间的样本点上,所以这个式子默认的是这样的 。完全基于样本在实验中出现的可能性。 就是随机变量,貌似是不确定的,但是实际上是确定的。此时,这个概率就有了另外一个名字,叫做分布(Distribution)。
分布对应的是随机变量,概率对应的是样本点,仅此而已。

随机变量取每一个值都赋予一个分布。某某随机变量、某某分布,这两个说法是:
如果随机变量是离散的,样本空间可数 (可数:这个集合与自然数的真子集一一对应、可列:)。连续的,则样本空间是实数轴 (康德尔在集合论中说的)。实数要不就是可数的,要不就是连续的—康德尔。作为点的个数实数轴比可数多多了,但是没有介于两者之前的其他数集。

4、一些性质

概率最重要的特性是可加性(Additivity)。譬如骰子的偶数面,是1/2,为什么可以不假思索?这就是公理。

如果不可数,变成一个积分

这就是概率密度(Density),具体的取值和在某点的概率不是一回事。

但以上公式实际上是错误的,而是

连续模型和离散模型,有天然的不同,所以需要用这种近似的方式,勉强联系在一起。所以我们把密度的原函数,称之为分布函数(Distribution Function)。

三、典型分布

这里介绍三个离散分布和三个连续分布

1、伯努利分布(Bernoalli)两点分布

2、二项分布(Binormal),射击模型

为什么是乘在一起?不都是加法吗?实际上是用到了独立性(Inpendent)的概念。两个样本是独立的,则

如果看作面积的话,左边是面积,右边是面积的平方?在引入条件概率之前,这件事真的及其不自然。所以之后会介绍一个重要概念,那就是条件概率。

3、泊松分布(Poisson)

从二项分布出发,使得 ,概率无限小,但又给无限机会,又使得 ,因此

因为

为k个n相乘), 因此

因此是二项分布的小概率出现,密集出现,我们用大数定律,如果是稀有时间,是小数定律。(打中靶值是非常稀有的事件)。

现代数字信号处理1 2019 张颢 03 第一讲3 概率论与随机过程基本知识回顾2 - YouTube

4、均匀分布(uniform)

 5、指数分布(exponential)

在离散分布里,几何分布与指数分布比较类似,以打枪为例,命中概率为P,几何分布是从你开始打,到你打中,需要的枪数。

这个形式跟指数分布很像,都是常数*指数所以指数分布是等待某件事情发生的概率。

一些重要特性:

  1. 无记忆性(Memoryless):Px>x+y|x>x=Px>y ,一个灯泡使用完100小时后,再使用两小时的概率,等同于一个新灯泡使用两小时的概率。

如何理解?可靠性理论:通常的部件故障率与时间的关系都服从澡盆模型。在澡盆中间是不容易坏的,刚开始和最后面是容易出故障的,所以是七天无理由退换。

 6、高斯分布Gaussian

,指数分布约定在正半轴,但是高斯没有

这是一个钟形(Bell shape)。性质优良,可以有多维分布。

一些重要特性:

四、其他重要特性

1、中心极限定理

都是独立同分布i.i.d,并且都做了归一化(均值为0,方差为1),则

若干随机变量的和,体现出整体和规律(高斯的)。大量的微小的随机因素,所呈现出的整体效应,和这些随机变量原有的效应就没有太大关系了。噪声的来源、影响因素不能找出来,太多了,但是合起来,就是高斯噪声。

Eg:统计物理学,分子运动,每一个分子都可以列出来,但是大量分子在一起时,方程太复杂了,还会碰撞,但是宏观上,反映出来就是温度,分子运动越剧烈,温度就越高。高斯就相当于这个温度。

对于每一种分布而言,都要记忆一种模型,就是样本对应可能性的大小,这么一套概率值,产生了两个问题。1、如果是先验的,我可以随便弄几个实验,说每个时间的概率是多少。看起来,建立模型是很简单的。但是要大浪淘沙,实践出真理,淘汰掉不可靠的模型。2、分布本身很复杂,因此希望用简单方法帮我们理解随机变量。使用一两个数字对其进行认知,则有:

2、均值Mean

这个是重心,质量在空间的分布的均值。

因为概率积分本身就为1,所以这个归一化的过程就省去了

而且,均值具有线性性质

Eg1:匹配问题(matching),N个人,N顶帽子。每人随机抓一顶帽子,请问多少人拿到自己帽子了。复杂在比起有关联。

几乎没有人用定义(舍本逐末)算均值,依赖均值的线性特性,

所以在均值层面,可以解耦。现在只需要计算 ,则

(N-1)!,第k的人已经带对,其他人想怎么样怎么样。

根据定义

因而

所以匹配不容易,N个人只有一个人会排上。

Eg2: ,首先定义距离,距离决定了我们现在的一切。不同的距离会得出截然不同的结论。

我们这里定义

其实这里,交换次序需要条件,但是工程学科,直接用就可以,但是得清楚。

现在对均值有了新认识。即离随机变量最近的那个确定性的常数(在均方距离下的最近的那个常数),虽然有误差,但是大致得到,而且很简单。

3、方差

方差其实就是上面说的这个最近的“距离”,而均值就是那个位置。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/117394
推荐阅读
相关标签
  

闽ICP备14008679号