当前位置:   article > 正文

从零开始实现核密度估计(kernel density estimation,KDE)-python实现_python kde 峰值

python kde 峰值

问题背景

核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。
具体原理推导可参考这篇博客
此篇博客侧重于根据理论公式,给出python实现。

python工具包推荐

seaborn,pandas,scikit-learn中均提供了kde计算及绘图函数,可直接查阅/调用。

理论基础

核密度估计的核心公式如下:
在这里插入图片描述
其中,h为带宽(band_width),K(.)为核函数,本文选取高斯核。
在这里插入图片描述
带宽h是一个超参数,h越小,邻域中参与拟合的点越少。h有多种选取方式,
本文参考网上资料采用如下公式:
在这里插入图片描述
其中c=1.05*数据序列标准差

python实现

根据以上背景,给出kde 计算函数如下:

def get_kde(x,data_array,bandwidth=0.1):
    def gauss(x):
        import math
        return (1/math.sqrt(2*math.pi))*math.exp(-0.5*(x**2))
    N=len(data_array)
    res=0
    if len(data_array)==0:
        return 0
    for i in range(len(data_array)):
        res += gauss((x-data_array[i])/bandwidth)
    res /= (N*bandwidth)
    return res
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

其中x为待进行估计的数据点,data_array为给定的数据序列(list)。

KDE计算及绘制demo

测试环境

python 3.7
matplotlib 3.0.3
numpy 1.16.2

demo

def get_kde(x,data_array,bandwidth=0.1):
    def gauss(x):
        import math
        return (1/math.sqrt(2*math.pi))*math.exp(-0.5*(x**2))
    N=len(data_array)
    res=0
    if len(data_array)==0:
        return 0
    for i in range(len(data_array)):
        res += gauss((x-data_array[i])/bandwidth)
    res /= (N*bandwidth)
    return res
import numpy as np
input_array=np.random.randn(20000).tolist()
bandwidth=1.05*np.std(input_array)*(len(input_array)**(-1/5))
x_array=np.linspace(min(input_array),max(input_array),50)
y_array=[get_kde(x_array[i],input_array,bandwidth) for i in range(x_array.shape[0])]

import matplotlib.pyplot as plt
plt.figure(1)
plt.hist(input_array,bins=40,density=True)
plt.plot(x_array.tolist(),y_array,color='red',linestyle='-')
plt.show()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23

运行结果

在这里插入图片描述
结果说明:
图中横轴为数据分布取值,纵轴为概率密度,其中直方图的高度 h = 频数/(总数*每个bin的宽度) ,直方图总面积是1,KDE曲线下总面积也是1。

参考资料

  1. 维基百科-Kernel density estimation
  2. 知乎相关回答
  3. 核密度估计-CSDN博客
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/129101?site
推荐阅读
相关标签
  

闽ICP备14008679号