当前位置:   article > 正文

数据挖掘基础(数学、统计基础)_已知某种疾病患者自然痊愈率为0.1

已知某种疾病患者自然痊愈率为0.1

随机事件、随机试验

概率:随机事件发生的可能性的度量

P=0~1

分数或百分比

随机事件:可能发生可能不发生,大量重复时表现出一定规律的事件

概率: P(A)

观察某种商品的日销量,各种福利彩票的摇奖、某地区夏季暴雨的次数等对随机现象的观察或实验统称为随机试验,简称试验。随机试验的结果称为随机事件(简称事件,用A,BC ..表示)

例掷一颗骰子,观察出现的点数就是一个随机试验.-

例抛一枚硬币,观察正、反面出现的情况也是一个随机试验

基本事件:随机试验中不能再分解的最简单的随机事件

复合事件:由若干个基本事件组合而成的事件称为复合事件

       如“出现偶数点”

排列组合

1,不重复的排列:从n个不同的元素中每次抽取m个不同的元素,按照一定的顺序排成一列: m<n,为选排列; m=n为全排列

选排列和全排列的种数分别用Pnm,和Pnn表示,

计算公式分别为Pnn=n!  ; Pnm,=n(n-1)…(n-m+1)=n!n-m!

例:10个人选4个人排成一队

2.可重复的排列:从n个不同的元素中每次抽取m个可以相同的元素,按照一定的顺序排成一列

nm

例:某城市的电话号码是7位数字,并且首位不能为零,最多可以安装多少台不同号码的电话机?解是7个数字的可重复排列问题,因首位不能为0,只有9种选择,其余6个位置都有10种选择方法,由乘法原理,最多可以安装9x106台电话机.

 

例:在一次考试中,某学生应做9道考题中的6道,问他有多少种选法?如果还要求他至少回答前5道题中的3道题,有多少种选法?

解本题为组合问题.在9道考题中选6道,有C96=84种选法.

如果要求至少回答前5道题中的3道题,包括3种情况:

(1)在前5题中选3个, 后4题中选3,有CC=40种选法;

(2)在前5题中选4个,后4题中选2个,有C,C2=30种选法;

(3)前5题全选,后4题中选1个,有C55C41=4种选法;再由加法原理,共有40+30+4-74种选法

概型(概率的定义)

描述事件发生可能性大小的数量指标称为事件发生的概率,记作P(A)

统计定义,古典定义,公理化定义,几何定义;也称为**概型

统计定义:

记n(A)为n次试验中事件A出现的次数,称为A的频数,记fn(A)为n次试验中事件出现的次数与试验总次数的比值,称为的频率,即

fnA=n(A)n

频率也可以反映事件发生的可能性大小,它是从多次试验的结果来考察随机事件发生的可能性大小,因而有随机性,它的数值依赖于试验对于同一事件,不仅试验次数不同可以得出不同的频率,就是试验次数相同,得到的频率也可能不同.

 

概率是固有和客观存在的

大量重复试验的条件下,随机事件出现的频率将会随着试验次数n的增大而逐渐趋于稳定

严格地讲,概率的统计定义只是一种描述性的定义,在大多数情况下,定义中提到的客观存在的数值P无法具体地确定一般只是在大量重复试验的条件下,通过频率值或一系列频率的均值作为概率P(A)的近似值

 

古典定义:

定义 在古典概型中,随机事件A发生的概率为

PA=#A

其中#A、#π分别表示A包含的基本事件个数和试验的基本事件总数.

例:一个五位数字的号码锁,每位上都有0,1,.9个数码,若不知道该锁的号码,问开一次锁就能将锁打开的概率有多大?

解  设A=“开一次就把锁打开”

则#A=1,#2=105

于是 P(A)= #A#π=1105= 0.00001

 

 

 

 

例:求n个人种至少两个人生日同天的概率(n小于等于365 )

解:生日各不相同的概率为

365x364x...x(365-n+1)365n

 

至少两人同天生日的概率为

p=1-365x364x...x(365-n+1)365n

至少两人生日同天的概率

,

几何概型:

把有限个样本点推广到无限个样本点的场合,人们引入了几何概型-等可能随机试验模型

在面积为S(Ω)(S(π) <+∞在此处键入公式。)区域Ω中等可能地随机投点点落入Ω中任意区域的可能性大小与A的面积S(A)成正比,而与其位置或形状无关。

P(A)=S(A)S(Ω)       平面区域Ω上A的几何概率

P(A)=m(A)m(Ω)      

 (其中m(Ω)是样本空间的度量m(A)是构成事件A的子区域的度量)这样借助于几何上的度量来合理规定的概率称为几何概率

 

例 某人午觉醒来,发觉表停了,他打开收音机,想听电台报时,假定电台每小时正点报时一次,求他等待的时间短于10分钟的概率。

解:因为电台每小时报时一次,我们自然认为这个人打开收音机时处于两次报时之间,

例如(13:00,14:00),而且取各点的可能性一样,要遇到等待时间短于10分钟,只有当他打开收音机的时间正好处于13:50至14:00之间才有可能,相应的概率是10/60-1/6.

 

例(会面问题) :甲、乙两人相约7点到8点在某地会面,先到者等候另一人20分钟,过时就可离去,试求这两人能会面的概率

解: 以x, y分别表示甲、乙两人的到达时刻,则两人能会面的充要条件为x-y s20

x-y≤20

P(A)=S(A)S(Ω)=602-402602=59

条件概率和贝叶斯公式

概率:条件概率

q是在事件已经发生的条件下,事件A发生的概率.一般情况下,它与事件A发生的概率P(A)是不相同的称之为“在事件B发生的条件下,事件A发生的条件概率",记为P(A|B)。事件AB与事件A|B可用图表示.

PAB=P(AB)P(B)

全概率公式   设事件 A1,A2,…,An是一个完备事件组,并且它们的概率都大于零,则对任意一个事件B,有 PB=i=1nP(Ai.P(B|Ai)称之为全概率公式

A1,A2,…,An是一个完备事件组,即A1,A2,…,An两两互不相容且i=1nAi=Ω

 

例:有朋自远方来,乘火车、轮船、汽车、飞机来的概率分别为0.30.2 , 0.1 ,0.4 ,迟到的概率分别为0.25 , 0.3 ,0.1 , 0;求他迟到的概率

解:设A1=乘火车, A2=乘船, A3=乘汽车, A4=乘飞机,B=迟到.A1, A2,4, 4,构成一个完备事件组,由全概率公式得

PB=i=14P(Ai.P(B|Ai)

=0.3×0.25+ 0.2 ×0.3+0.1 ×0.1+ 0.4X0

=0.145

概率:贝叶斯公式

设事件A1,A2,…,An构成一个完备事件组,并且它们的概率都大于零,则对于任意一个概率大于零的事件B,有

PAmB=P(AmB)P(B)=PAm.PBAmi=1nPAiPBAi (m=1,2,…,n)

称之为贝叶斯公式,又称逆概率公式.

Ai(i=1,2, …,n)视为导致事件发生B的"因素",

P(Ai)为"因素"的验前概率.

相反,事件B发生了,求各"因素"发生的条件概率P(A|B)

称P(Ai|B)为"因素"Ai的验后概率.

 

独立试验概率

设随机事件A,B满足P(AB)=P(A)P(B)则称事件A与B相互独立,简称A与B独立.

设A, B为两个事件, P(A)P(B) >0,则A与B独立的充分必要条件是

P(AB)=P(A)或P(B|A)=P(B)

事件A与B相互独立,是指其中任一事件发生的概率都不受另外一事件发生的影响.

 

定义 如果试验满足下面两个条件:

(1)这n次试验相互独立;

(2)每次试验只有两种可能结果,即事件A发生或A发生,且每次试验中,事件A发生的概率都相等,即P(A)=p.则称这n个试验为n重贝努利概型.

定理 如果在n重贝努利概型中,事件A发生的概率为p(0<p<1),则事件A在n次试验中恰好发生k(0≤k≤n)的概率P(Bk)为P(Bk)=Cnkpkqn-k

其中q=1-p,又称为贝努利公式.

 

例 一位医生知道某种疾病患者自然痊愈率为0.25.为试验一种新药是否有效,他将该药给10个病人服用,且规定若10个病人中至少有4个被医治好,则认为该药有效,反之则认为无效,

求:

(1)虽然新药有效,且将痊愈率提高到0.35,但通过实验被认为无效的概率;

(2)新药完全无效,但通过实验被认为有效的概率.

解 将10个病人服用此药视为10次重复试验,每次试验只有两种可能结果:痊愈或不痊愈,而且每个人痊愈与否彼此独立这是一个10重贝努利概型.

令A="新药有效且将痊愈率提高到0.35但被认为无效",

A发生当且仅当"10个病人中至多有3人被治好”从而

P(A)=k=03C10k0.35k(1-.035)10-k

=C100 x0.350 x0.6510 +C101 x0.351 x0.659+ C102 x0.352 x0.658+C103 x0.353 x0.657

≈0.514.

 

*例  某居民区共有居民n人,设有一个银行,开有c个窗口,设每个窗口都办理所有业务,假定n个人在每一指定时刻是否到银行是独立的,每个人到银行的概率都是p.

问:至少要设多少窗口才能以不小于a(0<a<1)的概率保证在每一时刻在每个窗口排队人数(包括正在被服务的那个人)不超过m?

解设A="每个窗口排队人数不超过m",为使每个窗口排队人数不超过m,在每一时刻到银行的人数至多为cm,所以P(A)=k=0cmCnkpk(1-p)n-k≥a

解上述不等式,求出最小自然数c即可.

 

随机变量及其分布

随机变量

随机变量的概念

例掷两颗骰子,观察出现的点数之和.

解用X表示掷两颗骰子出现的点数之和,则X的取,值可能为2, 3, 4.., 12等这11个值.

例从某电子元件厂生产的电子元件中,任意抽取一个电子元件,检查它的使用寿命.

解 用X表示其使用寿命,则X的可能取值应为非负实数即{XIX0}.

 

例观察某网站在单位时间内的点击次数.

解用X表示某网站在单位时间内收到的点击次,则X的可能取值是0,1,…,n….

上述例子可看出,有些随机试验的结果表现为x的取值,,有些随机试验的结果不直接表现为数字,但也能和数字建立对应关系.

例掷一枚硬币,观察正反面出现的情况.

解令x={1,正面向上0,反面向上

1,变异性:随试验结果而变的量

2.随机性:出现结果随机,试验前无法预测

3.随机变量的每一种取值,就是一个随机事件.

4,在同一个样本空间可以同时定义多个随机变量

{离散型(D.r.v):取值有限个或可列个非离散型(N.D.r.v)

其中一种重要的类型为连续型rv.(C.r.v)

离散型随机变量及其分布

定义设X为离散型随机变量,X的一切可能取值为x1,x2,…(有限个或可列个),X取各个可能值的概率为

p=P{X=xi}=P(xi),i=1,2,…

称此式为离散型随机变量X的概率函数或分布律,简称X的分布.

(1)pk≥0,k=1,2,…

(2)k=1pk=1

1,0-1分布

定义如果随机变量X的概率函数为

P{X=1}=p, P{X=0}=1-p=q

或P{X=i}=piq1-i,i=0,1. (0<p<l,q=1-p)

则称 服从参数p的0-1分布(或两点分布)

 

0-1分布是最简单的离散型分布,常描述只有两种对立结果的随机试验,

即贝努利试验.称贝努利试验的一种结果为“成功” ,对立结果为“失败"

二项分布

定义如果离散型随机变量X的概率函数为

PiX=h}=Cnkpk(1-p)n-k, k=0,1,2,…,n.

称X服从参数为n, p的二项分布.

记作X~B(n,p) (0<p<1)

 (2)描述对象:

n重伯努利试验中某事件发生的次数.

泊松分布

定义如果离散型随机变量X的概率函数为

PX=n=λnn!e-λ,n=0,1,2,…

其中λ>0,则称X服从参数为λ的泊松分布,记作X~P(λ)

易证:

(1)P{X=n}=λnn!e-λ>0, n=0,1,2,…

(2)n=0∞P{X=n}=n=0λnn!e=en=0λnn!=eeλ=1

在生物学、医学、工业统计、保险科学及公用事业的排队等问题中泊松分布是常见的分布。例如地震、火山爆发、特大洪水、交换台的电话呼唤次数等,都服从泊松分布.

 

泊松定理在n重贝努利试验中,事件A发生的次数服从二项分布,假设每次试验中事件A发生的概率为pn (0 <pn<1),如果n→∞时, npn,→λ则对任意给定的非负整数k,有

limn→∞PX=k=limn→∞Cnkpnk(1-pn)n-k=λkk!e-λ

在实际情况中, n一般为有限数,因此,若X~B(n,p),当n充分大而p相对较小时,有

P{X=k}=Cnkpnk(1-pn)n-k(np)kk!e-np

例某保险公司为了估计企业的利润,需要计算各种各样的概率,下面是较典型的问题之一:若一年中某类保险者里面每个人死亡的概率均等于0.005,现有1600人参加了这类保险,试求未来一年内在这些保险者中,

  1. 有15人死亡的概率; (2)死亡人数不超过20的概率.

解令X表示未来这一年内这些参保者的死亡人数,则

X~B(1600,0.005),np=8-2,所以由泊松定理,有

(1) P{X=15}=  C1600150.005150.995158581515!=0.009026

(2)P{X <20 }=k=020C1600k0.005k0.9951600-kk=0208kk!e-8=0.999907

连续型随机变量的概率密度

(1)对任意的X,f(x)≥0

(2) -∞fxdx=1

(3) Px1<X<x2=x1x2f(x)dx

(4)若f(x)在点x处连续,则有F'x=f(x)

 

均匀分布

定义如果连续型随即变量X的概率密度函数为

fx={1b-a a≤x≤b0           其他其中a,b-+∞)且a<b,

则称X服从区间[a,b]上的均匀分布(等概率分布).

性质: (1)P{X<a}=P{X>b}=0.

(2)若a≤c≤b,P{c<X<d}=cd1b-adx=d-cb-a

指数分布

定义如果随机变量X的密度函数为

fx={λe-λx,x≥00,x<0

其中A>0,则称X服从参数为λ的指数分布.

例一种电子元件的使用寿命 服从参数λ=0.0005的指数分布.试求:

(1)一个电子元件的使用寿命大于2000小时的概率;

(2)独立的对三个这样的电子元件进行检验,

至少有两个使用寿命大于2000小时的概率.

解X的概率分布密度为f(x)={0.0005e-0.0005x,x≥00,                            x<0

  1. 电子元件的使用寿命大于2000小时的概率

P{X> 2000}={2000+∞0.0005e-0.0005xdx=e-10.368

  1. 独立的对三个电子元件进行寿命检验,

令Y表示寿命大于2000小时的元件数,·则Y~B(3,0.368).

所以,P{Y>2}=C320.3682.0.6321+C330.3683≈0.307

正态分布

定义如果连续型随机变量X的概率密度函数为

φx=1σe-(x-μ)22σ2,-∞<x<+∞

其中σ>0,μ为任意常数,则称X服从参数为μσ的正态分布.记作X~N(μ,σ2).

μ=0, σ=1时, X的概率密度为,

φ0x=1e-x22,-∞<x<+∞

则称X服从标准正态分布,记作X~N (0,1).

 

正态分布是概率论中最重要的一种分布,一方面,它是自然界中最常见的一种分布,如测量时的误差,人体身高、体重,农作物的收获量,产品的长度、强度,等都近似服从正态分布.一般地说,这种量都可以看成是由大量的、微小的、相互独立的随机因素作用的结果,而每一种因素都不能起压倒一切的主导作用,则这个指标往往近似服从正态分布,这可由中心极限定理证明.正态分布具有良好的性质,许多分布都可用正态分布来近似,又称高斯分布。

随机变量及其数字特征

期望

若离散型随机变量X的可能取值为xi(i=1,2,…),其概率分布为P{X=xi}=pi, i=1,2,…

则当i=1xipi绝对收敛(即i=1|xipi|<∞时),i=1·称i=1xipi为随机变量X的数学期望(简称期望)

常数的数学期望等于这个常数本身,即EC=C.

随机变量X(数学期望存在)与常数C之和的数学期望等于X的数学期望与这个常数的和,即: E(X+C)=EX+C

 

定义若X为连续型随机变量, f(x)为其密度函数,

如果-∞+∞xf(x)dx的对收敛(即-∞+∞xfxdx<∞

则称-∞+∞xf(x)dx为随机变量X的数学期望。

E(X)=EX

设x是一个随机变量,则Y=g(X)称为随机变量函数。

  1. 若x是离散型随机量,概率分布为

则Eg(X)存在,且Eg(X)= i=1g(xi)pi

  1. 若x是连续型随机变量,f(x)是其密度函数,则Eg(X)存在,且Eg(X)=-∞+∞g(x)f(x)dx

方差

设X为一个随机变量,其数学期望EX存在,如果E(X-EX)2也存在,则称E(X-EX)2为随机变量X的方差记作DX或VarX,并称DX为标准差或均方差。

注:方差的大小可以衡量随机变量取值的稳定性。

(1)若X的取值比较集中,则方差较小;

(2)若X的取值比较分散,则方差较大;

(3)若D(X)=0,则随机变量X以概率1取常数值

此时,X就不再是随机变量了.

 

1,根据定义 DX=E(X-EX)2 

  1. 若x是离散型随机变量, 概率分布为

P(X=xi}=pi,DX=E(X-EX)2=i(xi-EX)2pi

  1. 若x是连续型随机变量, f(x)为其密度函数,则

DX=E(X-EX)2=-∞+∞xi-EX2f(x)dx

2·根据公式 DX=E(X-EX)2

  1. 若x是离散型随机变量, 概率分布为P(X=xi}=pi,

DX=ixi2pi-(ixipi)2

  1. 若x是连续型随机变量, f(x)为其密度函数,则

DX=-∞+∞x2f(x)dx-(-∞+∞xf(x)dx)2

例:利用大数据平台计算,

全国和各个城市的人均日通话时间,平均值-

全国和各个城市的人通话时间的差异性,方差

 

分布式计算:各个城市的均值和方差相对容易得到

如何计算700多个城市的均值和方差?

 

 

定理设随机向量(X,Y)的函数Z=g(X,Y)的数学期望存在,则

(1)如果(X,Y)是离散型随机向量,且联合分布为

PX=xi,Y=yi=pij,i,j=1,2,…

则EZ=Eg(X,Y)=i,jg(xi,yi)pij

(2)如果(X,Y)是C.r.v.,且(X,Y)~f(x,y)

则EZ=Eg(X,Y)=-∞+∞-∞+∞g(x,y)f(x,y)dxdy

相关性

协方差与协方差矩阵

对随机向量,除关心它每个分量的情况外,还要了解其各分量间的联系,即描述各分量间相互联系的数字特征,协方差就是描述分量间的线性关联程度的数字特征

1协方差

定义设(X,Y)是二维随机向量,如果

E[(X-EX)(Y-EY)]

存在,则称为随机向量(X,Y)的协方差,记为cov(X,Y)

即cov(X,Y)=E[ X-EX)(Y-EY)].

协方差

(1)定义式cov(X,Y)=E[(X-EX)(Y-EY)]

若(X,Y)~P{X=xi,Y=yj=pij,i,j=1,2,..

则cov(X,Y)=i,j(xi-EX)(yi-EY)pij

若(X,Y)~f(x,y)

则cov(X,Y)= -∞+∞-∞+∞(x-EX)(y-EY)f(x,y)dxdy 

(2)cov(X,Y)=EXY-EX.EY;

协方差矩阵

定义设(X,Y)为一个二维随机向量,且X与Y的方差均存在,称二阶矩阵

(or,x) co(x,m)DX covXcov(Y,X) cov(Y,Y)) cov(X,r)Dr)

V=covX,XcovX,YcovY,XcovY,Y=DXcovX,YcovY,XDY

为随机向量(X,Y)的协方差矩阵,简称协差阵

多维协方差矩阵

推广 设(X1X2,X3,….Xn)为一个n维随机向量,Xi的方差DXi(i= 1,2,…,n)均存在,

则以σij=cov(Xi,Yj)为第(i,j)元素(i,j=1,2,…,n)的矩阵(σij)n×n称为随机向量(X1X2,X3,….Xn)的协方差矩阵,简称协差阵,记作DX,X=(X1X2,X3,….Xn)

相关系数

定义设(X,Y)为二维随机向量,cov(X,Y)存在,

又DX>0,DY>0,称

ρX,Y=cov(X,Y)DXDY

为X, Y的相关系数,简记为ρ.

ρX,Y=cov(X,Y)DXDY=EXY-EXEYDXDY=E[X-EXDX.Y-EYDY]]

 

ρX,Y=cov(X,Y)DXDY

ρX,Y>0时,称X与Y正相关;

ρX,Y<0时,称X与Y负相关;

ρX,Y=0时,称X与Y不相关

lρX,Yl的大小反映了X,Y之间的线性关系的密切程度

 

 

 

 

两个随机变量相互独立表明二者之间没有任何联系,而不相关时,仅表明二者之间不存在线性关系,但不能排除存在其他的非线性关系.

不相关的等价条件

如果DX, DY均存在且为正,则下列四个条件等价:

(1)X与Y不相关

(2)cov(X,Y)=0(

3) EXY=EXEY

(4) D(X+Y)=DX+DY

中心极限定理

在客观实际中有许多随机变量,他们有大量的相互独立的随机因素综合影响而成,而其中每一个个别因素在总的影响中所起的作用都是微小的

定理(林德伯格一勒维)

是一列独立同分布的随机变量, 且,i=1,2,…则有

 

注:(1)中心极限定理表明大量独立同分布的随机变量之和都近似服从正态分布。

(2)作用

由此可近似求出由§生成的任何事件的概率

下面的图形表明:正态分布是二项分布的极限分布.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/995971
推荐阅读
相关标签
  

闽ICP备14008679号