赞
踩
从高维数据中提取信息的问题与降维问题密不可分,也就是说,从典型的高维观察中提取一些合理的特征的问题。例如,考虑一下人类在图像上识别人脸的能力。该图像被视为一个高维向量,例如 800 × 600 800 \times 600 800×600 的像素值,肯定不能作为原始像素数据存储在人类的大脑中。相反,我们必须提取一些特征,例如眼睛之间的相对距离,鼻子的长度,以及更抽象的不同脸部区域的相互作用,作为一个整体。储存和回忆这几个抽象特征的能力使我们有可能识别出一张脸,而不受不同的背景、太阳镜或部分遮挡的影响,并能区分不同的脸。在广泛的数据分析领域有更多的例子,通过提取特征可以从高维数据中挤出信息,从基因数据分类到音频信号处理,从数据可视化到脑电图(EEG)数据分析。
从形式上看,降维的问题是这样的。给定一个 p p p维的实值随机变量 X = [ X 1 … X p ] ⊤ X=\left[X_{1} \ldots X_{p}\right]^{\top} X=[X1…Xp]⊤,找到一个图或算法
f : R p → R k with k ≪ p , f: \mathbb{R}^{p} \rightarrow \mathbb{R}^{k} \text { with } k \ll p, f:Rp→Rk with k≪p,
使得 S = f ( X ) S=f(X) S=f(X)包含 “尽可能多的来自 X X X的信息”。根据上述例子的精神, R p \mathbb{R}^{p} Rp将被称为原始数据空间, R k \mathbb{R}^{k} Rk被称为还原数据空间或特征空间。
例如,信息的保存可以用方差来衡量,因此 S S S的方差应该反映 X X X的方差。这也可以解释为消除数据中的冗余。考虑下面的例子:温度被测量,一次是摄氏度(这将是随机变量的第一个条目 X 1 X_{1} X1),一次是华氏度 ( X 2 ) \left(X_{2}\right) (X2)。显然,这些信息可以简化为一个变量,例如 S 1 = X 1 S_{1}=X_{1} S1=X1,甚至不损失任何信息。
矩阵 X ⊂ R p × n \mathbf{X}\subset\mathbb{R}^{p\times n} X⊂Rp×n中的 ( i , j ) (i, j) (i,j)条目 x i j x_{i j} xij表示随机变量 X i X_{i} Xi在观测 j j j的实现,称为观测矩阵。其列是 p p p维随机变量 X X X的实现。
期望值用 E ( X ) = μ ∈ R p \mathbb{E}(X)=\mu\in \mathbb{R}^{p} E(X)=μ∈Rp来表示。由于我们处理的是一个多变量随机变量,方差现在由协方差矩阵(也称为方差-协方差矩阵)表示,其定义为
Σ = Var ( X ) = E ( ( X − μ ) ( X − μ ) ⊤ ) ∈ R p × p . (1.1) \Sigma=\operatorname{Var}(X)=\mathbb{E}\left((X-\mu)(X-\mu)^{\top}\right) \in \mathbb{R}^{p \times p} .\tag{1.1} Σ=Var(X)=E((X−μ)(X−μ)⊤)∈Rp×p.(1.1)
其 ( i , j ) (i, j) (i,j)项是 i th i^{\text {th }} ith 和 j th j^{\text {th }} jth 随机变量之间的协方差。协方差矩阵是对称的,即 Σ = Σ ⊤ \Sigma=\Sigma^{\top} Σ=Σ⊤,并且是正半无限的 1 { }^{1} 1,即 Σ ≥ 0 ⇔ \Sigma \geq 0 \Leftrightarrow Σ≥0⇔ x ⊤ Σ x ≥ 0 ∀ x x^{\top} \Sigma x \geq 0 \forall x x⊤Σx≥0∀x。
1 { }^{1} 1 in contrast to positive definite, i.e. x ⊤ Σ x > 0 ∀ x ≠ 0 x^{\top} \Sigma x>0 \forall x \neq 0 x⊤Σx>0∀x=0 and x ⊤ Σ x = 0 ⇔ x = 0 x^{\top} \Sigma x=0 \Leftrightarrow x=0 x⊤Σx=0⇔x=0
例1.1. 考虑两个常数随机变量 X 1 ≡ const X_{1} \equiv \text{const} X1≡const , X 2 ≡ const X_{2} \equiv \text{const} X2≡const。这意味着我们有一个协方差矩阵 Σ = 0 \Sigma=0 Σ=0的二维随机变量。这个例子表明, Σ \Sigma Σ不一定是正定的。
由于随机变量的实际分布通常是未知的,期望值通常是在 n n n观测值的基础上估计的。
1
n
∑
j
=
1
n
[
x
1
j
⋮
x
p
j
]
=
1
n
X
1
n
:
=
μ
^
(1.2)
\frac{1}{n} \sum_{j=1}^{n}\left[x1j⋮xpj\right]=\frac{1}{n} \mathbf{X} \mathbb{1}_{n}:=\hat{\mu} \tag{1.2}
n1j=1∑n⎣⎢⎡x1j⋮xpj⎦⎥⎤=n1X1n:=μ^(1.2)
利用这个估计的期望值和克罗内克积(Kronecker product)
2
^{2}
2
⊗
\otimes
⊗,
可以计算出居中的观测矩阵
X
\mathbf{X}
X,如下所示。
X ‾ = X − μ ^ ⊗ [ 1 ⋯ 1 ] (1.3) \overline{\mathbf{X}}=\mathbf{X}-\hat{\mu} \otimes\left[1⋯1\right]\tag{1.3} X=X−μ^⊗[1⋯1](1.3)
2 { }^{2} 2 The Kronecker product of two matrices A ⊗ B \mathbf{A} \otimes \mathbf{B} A⊗B with A = { a i j } ∈ R k × l , B = { b i j } ∈ R m × n \mathbf{A}=\left\{a_{i j}\right\} \in \mathbb{R}^{k \times l}, \mathbf{B}=\left\{b_{i j}\right\} \in \mathbb{R}^{m \times n} A={aij}∈Rk×l,B={bij}∈Rm×n is a ( k m × l n ) (k m \times l n) (km×ln)-matrix C \mathbf{C} C, such that C = [ a 11 B ⋯ a 1 l B ⋮ ⋱ ⋮ a k 1 B ⋯ a k l B ] \mathbf{C}=\left[a11B⋯a1lB⋮⋱⋮ak1B⋯aklB\right] C=⎣⎢⎡a11B⋮ak1B⋯⋱⋯a1lB⋮aklB⎦⎥⎤
有了居中的观察矩阵 X ‾ \overline{\mathrm{X}} X,协方差矩阵 Σ = Cov ( X ) \Sigma=\operatorname{Cov}(X) Σ=Cov(X)可以通过以下方式估计
Σ ^ = 1 n − 1 X ‾ X ‾ ⊤ . \widehat{\Sigma}=\frac{1}{n-1} \overline{\mathbf{X}} \overline{\mathbf{X}}^{\top} . Σ =n−11XX⊤.
由于在实际应用中 n n n趋向于大,也可以使用近似值 1 n X ‾ X ‾ ⊤ \frac{1}{n} \overline{\mathbf{X}} \overline{\mathbf{X}}^{\top} n1XX⊤.
我们想回顾一下概率论中的一些基本定义和符号,在本讲义中我们偶尔会用到。为了我们的目的,考虑连续或离散的实数多维随机变量就足够了。更正式地说,让 X Ω → R p X \Omega\rightarrow\mathbb{R}^{p} XΩ→Rp是一个随机变量,并将其相对于通常勒贝格测度的密度表示为 p X ( x ) p_{X}(x) pX(x)。我们将使用非常草率但非常方便的符号 X ∈ R p X\in\mathbb{R}^{p} X∈Rp来表示随机变量 X X X在 R p \mathbb{R}^{p} Rp中取值。
对于(绝对)连续随机变量,密度是一个从 R p \mathbb{R}^{p} Rp到 R \mathbb{R} R的连续函数。如果是离散随机变量,其取值为 x i x_{i} xi,概率为 p i p_{i} pi,我们采用狄拉克δ函数 3 { }^{3} 3来描述其密度,即
p X ( x ) = ∑ i p i δ ( x − x i ) . p_{X}(x)=\sum_{i} p_{i} \delta\left(x-x_{i}\right) . pX(x)=i∑piδ(x−xi).
3 { }^{3} 3 The Dirac-Delta-Function fulfills the condition that δ ( t ) = 0 \delta(t)=0 δ(t)=0 for t ≠ 0 t \neq 0 t=0 and ∫ R p δ ( t ) d t = 1 p \int_{\mathbb{R}^{p}} \delta(t) \mathrm{d} t=\mathbb{1}_{p} ∫Rpδ(t)dt=1p. i.e. δ \delta δ has an infinitely high peak at 0. 0 . 0.
所以,如果 A ⊂ R p \mathcal{A} \subset \mathbb{R}^{p} A⊂Rp,则 X X X在 A \mathcal{A} A中取值的概率为
Pr ( X ∈ A ) = ∫ A p X ( x ) d x . \operatorname{Pr}(X \in \mathcal{A})=\int_{\mathcal{A}} p_{X}(x) \mathrm{d} x . Pr(X∈A)=∫ApX(x)dx.
注意,在离散随机变量的情况下,这个表达式只是
Pr
(
X
∈
A
)
=
∫
A
∑
i
p
i
δ
(
x
−
x
i
)
d
x
=
∑
{
i
∣
x
i
∈
A
}
p
i
.
\operatorname{Pr}(X \in \mathcal{A})=\int_{\mathcal{A}} \sum_{i} p_{i} \delta\left(x-x_{i}\right) \mathrm{d} x=\sum_{\left\{i \mid x_{i} \in \mathcal{A}\right\}} p_{i} .
Pr(X∈A)=∫Ai∑piδ(x−xi)dx={i∣xi∈A}∑pi.
通过知道两个随机变量
X
∈
R
p
X\in \mathbb{R}^{p}
X∈Rp和
Y
∈
R
k
Y\in \mathbb{R}^{k}
Y∈Rk的联合密度
p
X
,
Y
(
x
,
y
)
p_{X, Y}(x, y)
pX,Y(x,y),就可以分别推导出
X
X
X和
Y
Y
Y的个体密度。这些被称为边缘密度(marginal densities),它们由以下公式给出
p
X
(
x
)
=
∫
R
k
p
X
,
Y
(
x
,
y
)
d
y
,
p
Y
(
y
)
=
∫
R
p
p
X
,
Y
(
x
,
y
)
d
x
.
pX(x)=∫RkpX,Y(x,y)dy,pY(y)=∫RppX,Y(x,y)dx.
pX(x)=∫RkpX,Y(x,y)dy,pY(y)=∫RppX,Y(x,y)dx.
如果联合密度函数是给定的,对两个变量之一的某个实现的了解,例如
X
X
X,可以推断出关于
Y
Y
Y的分布信息。由此产生的密度函数被称为条件密度函数,如果
X
X
X的实现是
x
∈
R
p
x \in \mathbb{R}^{p}
x∈Rp,它由以下公式给出
p Y ∣ X = x ( y ) = p X , Y ( x , y ) p X ( x ) . p_{Y \mid X=x}(y)=\frac{p_{X, Y}(x, y)}{p_{X}(x)} . pY∣X=x(y)=pX(x)pX,Y(x,y).
4 { }^{4} 4 从形式上看,这个集合必须是可测的,相对于博雷尔 σ \sigma σ-代数而言,但如果你不知道什么是可测的,你能想象的所有子集都满足这个条件。有两个量在描述随机变量 X ∈ R p X\in\mathbb{R}^{p} X∈Rp的统计属性时起着突出的作用。它们是第一和第二时刻,也被称为期望值
E [ X ] = ∫ R p x p X ( x ) d x = : μ \mathbb{E}[X]=\int_{\mathbb{R}^{p}} x p_{X}(x) \mathrm{d} x=: \mu E[X]=∫RpxpX(x)dx=:μ
和方差/协方差
Var [ X ] = ∫ R p ( x − μ ) ( x − μ ) ⊤ p X ( x ) d x . \operatorname{Var}[X]=\int_{\mathbb{R}^{p}}(x-\mu)(x-\mu)^{\top} p_{X}(x) \mathrm{d} x . Var[X]=∫Rp(x−μ)(x−μ)⊤pX(x)dx.
注意, μ ∈ R p \mu\in\mathbb{R}^{p} μ∈Rp和 Var [ X ] \operatorname{Var}[X] Var[X]是 R p × p \mathbb{R}^{p\times p} Rp×p的半正定矩阵。
x 1 x_{1} x1 | x 2 x_{2} x2 | x 3 x_{3} x3 | x 4 x_{4} x4 | p y ( Y ) ↓ p_{y}(Y) \downarrow py(Y)↓ | |
---|---|---|---|---|---|
y 1 y_{1} y1 | 1 8 \frac{1}{8} 81 | 1 16 \frac{1}{16} 161 | 1 32 \frac{1}{32} 321 | 1 32 \frac{1}{32} 321 | 1 4 \frac{1}{4} 41 |
y 2 y_{2} y2 | 1 16 \frac{1}{16} 161 | 1 8 \frac{1}{8} 81 | 1 32 \frac{1}{32} 321 | 1 32 \frac{1}{32} 321 | 1 4 \frac{1}{4} 41 |
y 3 y_{3} y3 | 1 16 \frac{1}{16} 161 | 1 16 \frac{1}{16} 161 | 1 16 \frac{1}{16} 161 | 1 16 \frac{1}{16} 161 | 1 4 \frac{1}{4} 41 |
y 4 y_{4} y4 | 1 4 \frac{1}{4} 41 | 0 | 0 | 0 | 1 4 \frac{1}{4} 41 |
p x ( X ) p_{x}(X) px(X) | 1 2 \frac{1}{2} 21 | 1 4 \frac{1}{4} 41 | 1 8 \frac{1}{8} 81 | 1 8 \frac{1}{8} 81 | 1 |
表1.1: 该表显示了一个示例性的联合概率分布。
例1.2. 表1.1中给出了一个二维离散随机变量的联合概率分布的例子。边际密度分别用 p Y ( y ) p_{Y}(y) pY(y)和 p X ( x ) p_{X}(x) pX(x)表示。作为一个练习,请计算在 Y = y 2 Y=y_{2} Y=y2的情况下 X X X的条件密度。
Answer: p X ∣ Y = y 2 ( x ) = ∑ i p i δ ( x − x i ) p_{X \mid Y=y_{2}}(x)=\sum_{i} p_{i} \delta\left(x-x_{i}\right) pX∣Y=y2(x)=∑ipiδ(x−xi), with p 1 = 1 / 4 , p 2 = 1 / 2 , p 3 = 1 / 8 , p 4 = 1 / 8. p_{1}=1 / 4, p_{2}=1 / 2, p_{3}=1 / 8, p_{4}=1 / 8 . p1=1/4,p2=1/2,p3=1/8,p4=1/8.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。