赞
踩
来源: https://www.weidianyuedu.com
本文用Python统计模拟的方法,介绍四种常用的统计分布,包括离散分布:二项分布和泊松分布,以及连续分布(指数分布、正态分布),最后查看人群的身高和体重数据所符合的分布。
# 导入相关模块import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline%config InlineBackend.figure_format = "retina"
随机数
计算机发明后,便产生了一种全新的解决问题的方式:使用计算机对现实世界进行统计模拟——该方法又称为“蒙特卡洛方法(Monte Carlo method)”。
使用统计模拟,首先要产生随机数,在Python中,numpy.random 模块提供了丰富的随机数生成函数。比如生成0到1之间的任意随机数:
np.random.random(size=5) # size表示生成随机数的个数
array([ 0.32392203, 0.3373342 , 0.51677112, 0.28451491, 0.07627541])
又比如生成一定范围内的随机整数:
np.random.randint(1, 10, size=5) # 生成5个1到9之间的随机整数
array([5, 6, 9, 1, 7])
计算机生成的随机数其实是伪随机数,是由一定的方法计算出来的,因此我们可以按下面方法指定随机数生成的种子,这样的好处是以后重复计算时,能保证得到相同的模拟结果。
np.random.seed(123)
在NumPy中,不仅可以生成上述简单的随机数,还可以按照一定的统计分布生成相应的随机数。这里列举了二项分布、泊松分布、指数分布和正态分布各自对应的随机数生成函数,接下来我们分别研究这四种类型的统计分布。
np.random.binomial()
np.random.poisson()
np.random.exponential()
np.random.normal()
二项分布
二项分布是n个独立的是/非试验中成功的次数的概率分布,其中每次试验的成功概率为p。这是一个离散分布,所以使用概率质量函数(PMF)来表示k次成功的概率:
最常见的二项分布就是投硬币问题了,投n次硬币,正面朝上次数就满足该分布。下面我们使用计算机模拟的方法,产生10000个符合(n,p)的二项分布随机数,相当于进行10000次实验,每次实验投掷了n枚硬币,正面朝上的硬币数就是所产生的随机数。同时使用直方图函数绘制出二项分布的PMF图。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。