赞
踩
参考文献:
在很多问题中,我们可能需要找到某个独立同分布数据集 X = ( X 1 , X 2 , ⋯ , X n ) X = (X_1, X_2, \cdots, X_n) X=(X1,X2,⋯,Xn) 的分布。此时可以采用参数估计或非参数估计的方法。
对于参数估计来说,首先需要假设数据集的分布族是已知的:例如我们可以假设数据集属于正态分布,但正态分布的参数是未知的,因此我们需要从原始数据集中导出正态分布的参数 μ , σ \mu, \sigma μ,σ,即使事实上原始数据的分布并不是正态的。
为了求解正态分布的参数 μ , σ \mu, \sigma μ,σ,我们采用极大似然法:在独立同分布的情况下,数据集 X X X 的联合概率分布是各随机变量 X i X_i Xi 的概率密度的简单乘积:
f ( X 1 , … , X n ) = ∏ i = 1 n 1 2 π σ 2 e − ( X i − μ ) 2 2 σ 2 = 1 ( 2 π σ 2 ) n / 2 e − 1 2 σ 2 ∑ i = 1 n ( X i − μ ) 2 f\left(X_{1}, \ldots, X_{n}\right)=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(X_{i}-\mu\right)^{2}}{2 \sigma^{2}}}=\frac{1}{\left(2 \pi \sigma^{2}\right)^{n / 2}} e^{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}} f(X1,…,Xn)=i=1∏n2πσ2
1e−2σ2(Xi−μ)2=(2πσ2)n/21e−2σ21∑i=1n(Xi−μ)2
在理想状态下,我们应该求出一个 μ , σ \mu, \sigma μ,σ,使得 f ( X 1 , X 2 , ⋯ , X n , μ , σ ) f(X_1, X_2, \cdots, X_n, \mu, \sigma) f(X1,X2,⋯,Xn,μ,σ) ,也即联合概率分布最大,很容易得出:
μ ^ = 1 n ∑ i = 1 n X i σ ^ 2 = 1 n ∑ i = 1 n ( X i − μ ^ ) 2 \hat{\mu} = \frac{1}{n} \sum_{i=1}^n X_i \text{ ~~~~~~ } \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \hat{\mu})^2 μ^=n1i=1∑nXi σ^2=n1i=1∑n(Xi−μ^)2
很显然,这种参数估计的方法的一个最致命的缺点就在于,需要事前假设出数据集的所属分布,这在很多情况下是无法做到的,因此就诞生了一种非参数估计的方法。
累计分布函数的定义为 F ( x ) = P ( X ≤ x ) F(x) = P(X \leq x) F(x)=P(X≤x),对于一个数据集来说,我们可以用频率去代替概率,于是可以估计累计分布函数:
F n ( x ) = 小于 x 的样本数量 n F_n(x)= \frac{\text{小于} x \text{的样本数量}}{n} Fn(x)=n小于x的样本数量
由于概率密度函数:
f ( x ) = lim h → 0 F ( x + h ) − F ( x − h ) 2 h f(x) = \lim_{h\to 0} \frac{F(x+h) - F(x-h)}{2h} f(x)=h→0lim2hF(x+h)−F(x−h)
于是我们也可以用频率去估计概率密度函数:
f ^ ( x ) = 1 2 n h { 落在 [ x − h , x + h ] 的样本数量 } \hat{f}(x) = \frac{1}{2nh} \{\text{落在} [x-h, x+h] \text{的样本数量} \} f^(x)=2nh1{
落在[x−h,x+h]的样本数量}
其中 h h h 为带宽宽度,或者又叫窗口宽度。若我们定义一个均匀分布的核函数 k ( x ) k(x) k(x),如下所示:
k ( x ) = { 1 / 2 if ∣ x ∣ ≤ 1 0 otherwise k(x)=
于是我们便可以将上述的 f n ( x ) f_n(x) fn(x) 表示成数学形式,如下所示:
f ^ ( x ) = 1 n h ∑ i = 1 n k ( x − X i h ) \hat{f}(x) = \frac{1}{nh} \sum_{i=1}^n k(\frac{x-X_i}{h}) f^(x)=nh1i=1∑nk(hx−Xi)
我们也常常称上述的概率密度估计为均匀核密度估计,函数 k ( x ) k(x) k(x) 称为核函数。一般的,核函数取为标准正态分布,这种核密度估计也叫正态核密度估计。
核函数一般需要满足如下要求:
(i) ∫ k ( v ) d v = 1 \int k(v) d v=1 ∫k(v)dv=1
(ii) k ( v ) = k ( − v ) \quad k(v)=k(-v) k(v)=k(−v)
(iii) ∫ v 2 k ( v ) d v = κ 2 > 0 \quad \int v^{2} k(v) d v=\kappa_{2}>0 ∫v2k(v)dv=κ2>0
换句话说核函数必须是一个关于y轴对称的概率密度函数。当然,21世纪以来,也有很多学者开始研究非对称的核函数。此外,在数据量较少的情况下,如果数据真的来源于一个正态总体,那么核密度估计的方法是要比参数估计的方法的精确度要低很多的。
选取的核函数满足上述的三个要求的情况下,核函数估计的方法也不一定会准,如下图所示,以示例数据:example_data = [-1.95, -1.5, -0.7, -0.65, -0.62, 0.1, 0.9]
为例,将标准正态分布作为核函数,选取不同的宽度 h h h,最终求解出来的经验概率密度函数会呈现不同的形态。一般来说,宽度 h h h 越小则得出的概率密度函数越不平滑,包含的噪声也越多;若选取的宽度过大,则产生的概率密度函数会过分平滑,包含的细节也越少。
因此本博客及后续的博客,将主要讨论,使用核密度估计时,宽度 h 的选择原则和方法。
设核函数已知,且满足上述的三个条件。那么宽度 h 的选择,应使得实际的概率密度,与使用数据集(随机向量)估计的经验概率密度函数之差的均方最小,也即找到一个 h h h,使得:
MSE ( h ) = E { [ f ^ ( x ) − f ( x ) ] 2 } \text{MSE}(h) = E\{ [\hat{f}(x) - f(x)]^2 \} MSE(h)=E{
[f^(x)−f(x)]2}
为了分析 h h h 与 MSE 的关系,我们假设存在 n n n 个独立同分布的随机变量(不是具体样本): X ∼ ( X 1 , X 2 , ⋯ , X n ) X \sim (X_1, X_2, \cdots, X_n) X∼(X1,X2,⋯,Xn),设 x x x 为一个已知量, k ( x ) k(x) k(x) 为核函数, h h h 为窗口宽度,从而有:
定理 1 :可以证明
MSE ( f ^ ( x ) ) = h 4 4 [ κ 2 f ( 2 ) ( x ) ] 2 + κ f ( x ) n h + o ( h 4 ) + O ( h ) n h \operatorname{MSE}(\hat{f}(x)) = \frac{h^{4}}{4}\left[\kappa_{2} f^{(2)}(x)\right]^{2}+\frac{\kappa f(x)}{n h}+o(h^{4}) + \frac{O(h)}{nh} MSE(f^(x))=4h4[κ2f(2)(x)]2+nhκf(x)+o(h4)+nhO(h)
当 n → ∞ , h → 0 , n h → ∞ n\to \infty, h\to 0, nh \to \infty n→∞,h→0,nh→∞ 时,有:
MSE ( f ^ ( x ) ) = h 4 4 [ κ 2 f ( 2 ) ( x ) ] 2 + κ f ( x ) n h + o ( h 4 + ( n h ) − 1 ) = O ( h 4 + ( n h ) − 1 ) ,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。