当前位置:   article > 正文

线性代数(三)——矩阵操作和属性_矩阵ta=at

矩阵ta=at

3 Operations and Properties(矩阵的操作和属性)

原文PDF下载地址:https://download.csdn.net/download/a794922102/11109742

3.1 The Identity Matrix(单位矩阵) and Diagonal Matrices(对角矩阵)

  • 单位矩阵:对角线元素都为1,其他都为0

    任何矩阵与单位矩阵相乘都为自身,且单位矩阵满足交换律

  • 对角矩阵:对角线元素都为非零,其他都为0

    其中,如果对角矩阵的对角线元素都为1,则该对角矩阵也是单位矩阵

3.2 The Transpose(矩阵的转置)

矩阵的转置:翻转矩阵的行和列

转置满足以下性质:

  • ( A T ) T = A (A^T)^T=A (AT)T=A
  • ( A B ) T = B T A T (AB)^T=B^TA^T (AB)T=BTAT
  • ( A + B ) T = A T + B T (A+B)^T=A^T+B^T (A+B)T=AT+BT

3.3 Symmetric Matrices(对称矩阵)

如果方阵满足 A = A T A=A^T A=AT,则方阵A为对称矩阵,如果方阵满足 A = − A T A=-A^T A=AT,则矩阵A为反对称矩阵。

我们可以发现 A + A T A+A^T A+AT必定是对称矩阵, A − A T A-A^T AAT必定是反对称矩阵,所有可以得出

任何方阵都可以表示为对称矩阵与反对称矩阵的和: A = 1 2 ( A + A T ) + 1 2 ( A − A T ) A=\frac{1}{2}(A+A^T)+\frac{1}{2}(A-A^T) A=21(A+AT)+21(AAT)

通常我们用 A ∈ S n A \in\mathbb{S}^{n} ASn,表示A是一个 n × n n \times n n×n的矩阵

3.4 The Trace(矩阵的迹)

在方阵A中,方阵A的迹,记为 t r ( A ) tr(A) tr(A)。方阵的迹为方阵对角线元素的和,如下所示:
t r ( A ) = ∑ i = 1 n A i i tr(A)=\sum^{n}_{i = 1}{A_{ii}} tr(A)=i=1nAii
方阵的迹有如下属性:

  • 对于 A ∈ R n × n A \in\mathbb{R}^{n \times n} ARn×n t r ( A ) = t r ( A T ) tr(A)=tr(A^T) tr(A)=tr(AT)
  • 对于 A , B ∈ R n × n A,B \in\mathbb{R}^{n \times n} A,BRn×n t r ( A + B ) = t r ( A ) + t r ( B ) tr(A+B)=tr(A) + tr(B) tr(A+B)=tr(A)+tr(B)
  • 对于 A ∈ R n × n , x ∈ R A \in \mathbb{R}^{n \times n},x \in \mathbb{R} ARn×n,xR t r ( x A ) = x t r ( A ) tr(xA)=xtr(A) tr(xA)=xtr(A)
  • 对于 A , B A,B A,B A B AB AB为方阵,则 t r ( A B ) = t r ( B A ) tr(AB)=tr(BA) tr(AB)=tr(BA)
  • 对于 A , B , C A,B,C A,B,C A B C ABC ABC为方阵,则 t r ( A B C ) = t r ( B C A ) = t r ( C A B ) tr(ABC)=tr(BCA)=tr(CAB) tr(ABC)=tr(BCA)=tr(CAB),依次类推

3.5 Norms(范数)

向量的范数是一种非真实的量表示向量的"长度”,例如我们常用的 l 2 l_2 l2范式 ∣ ∣ x ∣ ∣ 2 = ∑ i = 1 n x i 2 ||x||_2=\sqrt{\sum^{n}_{i=1}{x_i^2}} x2=i=1nxi2 ,注意: ∣ ∣ x ∣ ∣ 2 2 = x T x ||x||_2^2=x^Tx x22=xTx.

通常来说,范数是任意的 f : R n → R f:\mathbb{R}^n\rightarrow\mathbb{R} f:RnR函数,且满足以下四个条件:

  • 对于任意 x ∈ R n x \in \mathbb{R}^n xRn,有 f ( x ) ≥ 0 f(x)\geq0 f(x)0(非负性)
  • 如果 f ( x ) = 0 f(x) = 0 f(x)=0,当且仅当 x = 0 x = 0 x=0(确定性)
  • 对于任意 x ∈ R n , t ∈ R x \in \mathbb{R}^n,t \in \mathbb{R} xRntR,有 f ( t x ) = ∣ t ∣ f ( x ) f(tx)=|t|f(x) f(tx)=tf(x)(一致性)
  • 对于任意 x , y ∈ R n x,y \in \mathbb{R}^n xyRn,有 f ( x + y ) ≤ f ( x ) + f ( y ) f(x + y) \leq f(x) + f(y) f(x+y)f(x)+f(y)(三角不等式)

l 1 l_1 l1范数: ∣ ∣ x ∣ ∣ 1 = ∑ i = 1 n ∣ x i ∣ ||x||_1={\sum^{n}_{i=1}{|x_i|}} x1=i=1nxi

l ∞ l_\infty l范数: ∣ ∣ x ∣ ∣ ∞ = m a x i ∣ x ∣ i ||x||_\infty={max_i|x|_i} x=maxixi

l p l_p lp范数: ∣ ∣ x ∣ ∣ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p ||x||_p=({\sum^{n}_{i=1}{|x_i|}^p})^{\frac{1}{p}} xp=(i=1nxip)p1(p大于等于1)

同理我们也可以定义矩阵的范数,如Frobenius范数(F-范数)
∣ ∣ A ∣ ∣ F = ∑ i = 1 m ∑ j = 1 n A i j 2 = t r ( A A T ) ||A||_F=\sqrt{\sum^m_{i=1}\sum^n_{j=1}A_{ij}^2}=\sqrt{tr(AA^T)} AF=i=1mj=1nAij2 =tr(AAT)

3.6 Linear Independence and Rank(线性无关和秩)

矢量空间的一组元素中,若没有矢量可用有限个其他矢量的线性组合所表示,则称为线性无关或线性独立(linearly independent),反之称为线性相关(linearly dependent)。

秩的相关属性:

  • 对于 A ∈ R m × n , r a n k ( A ) ≤ m i n ( n , m ) A \in\mathbb{R}^{m \times n},rank(A) \leq min(n,m) ARm×nrank(A)min(n,m),如果 r a n k ( A ) = m i n ( n , m ) rank(A) = min(n,m) rank(A)=min(n,m),则称A是满秩的。
  • 对于 A ∈ R m × n , r a n k ( A ) = r a n k ( A T ) A \in\mathbb{R}^{m \times n},rank(A) = rank(A^T) ARm×nrank(A)=rank(AT)
  • 对于 A ∈ R m × n , B ∈ R n × p , r a n k ( A B ) ≤ m i n ( r a n k ( A ) , r a n k ( B ) ) A \in\mathbb{R}^{m \times n},B \in\mathbb{R}^{n \times p},rank(AB) \leq min(rank(A),rank(B)) ARm×nBRn×prank(AB)min(rank(A),rank(B))
  • 对于 A , B ∈ R m × n , r a n k ( A + B ) ≤ r a n k ( A ) + r a n k ( B ) A,B \in\mathbb{R}^{m \times n},rank(A+B) \leq rank(A)+rank(B) A,BRm×nrank(A+B)rank(A)+rank(B)

3.7 The Inverse(矩阵的逆)

对于方阵 A ∈ R n × n A \in\mathbb{R}^{n \times n} ARn×n的逆记为 A − 1 A^{-1} A1,有 A − 1 A = I = A A − 1 A^{-1}A=I=AA^{-1} A1A=I=AA1

请注意,不是所有的矩阵都存在逆,例如:根据定义非方阵的矩阵不存逆,并且对于某些方阵而言,也没有逆。如果矩阵的逆存在,则称这个矩阵是"可逆的"或"非奇异的"。

我们可以发现,如果矩阵A可逆,则A必须满秩。

假设 A , B A,B A,B是非奇异的(可逆的),且 A , B ∈ R n × n A,B\in\mathbb{R}^{n \times n} A,BRn×n,则有以下属性:

  • ( A − 1 ) − 1 = A (A^{-1})^{-1}=A (A1)1=A
  • ( A B ) − 1 = B − 1 A − 1 (AB)^{-1}=B^{-1}A^{-1} (AB)1=B1A1
  • ( A − 1 ) T = ( A T ) − 1 (A^{-1})^T=(A^T)^{-1} (A1)T=(AT)1,也可被记为: A − T A^{-T} AT

3.8 Orthogonal Matrices(正交矩阵)

对于两个向量 x , y ∈ R n x,y\in\mathbb{R}^{n} x,yRn,若 x T y = 0 x^Ty=0 xTy=0,则称 x , y x,y x,y正交。如果 ∣ ∣ x ∣ ∣ 2 = 1 ||x||_2=1 x2=1,则称 x x x是标准化的(归一化)。

对于方阵 U ∈ R n × n U \in\mathbb{R}^{n \times n} URn×n,方阵中的列向量相互正交且归一化,则方阵 U U U是正交矩阵,且我们可以得出:
U T U = I = U U T U^TU=I=UU^T UTU=I=UUT
从另一方面来说,正交矩阵的逆是它自身的转置。注意:如果 U ∈ R m × n U \in\mathbb{R}^{m \times n} URm×n( U U U不是方阵,且 n &lt; m n&lt;m n<m),而 U U U的列依旧相互正交,则 U T U = I ≠ U U T U^TU=I \neq UU^T UTU=I̸=UUT。我们通常只用正交来描述, U U U是方阵时的情况。

正交矩阵的一个好处是:在具有在正交矩阵的向量上操作,不会改变其 l 2 l_2 l2范数,即:
∣ ∣ U x ∣ ∣ 2 = ∣ ∣ x ∣ ∣ 2 ||Ux||_2=||x||_2 Ux2=x2
U U U为正交方阵, x x x为n维列向量。

3.9 Range and Nullspace of a Matrix(矩阵值域和零空间)

向量集合的张成(span)是指,这个集合中的所有向量都能被,这个集合中的向量进行线性表示。

可以发现,如果这个向量集合有n个线性无关的向量(其中 x i ∈ R n x_i \in \mathbb{R}^n xiRn),则 s p a n ( { x 1 , x 2 , ⋯ &ThinSpace; , x n } ) = R n span(\{x_1,x_2,\cdots,x_n\})=\mathbb{R}^{n} span({x1,x2,,xn})=Rn.

从另一方面来说,对于任意的向量 v ∈ R n v \in \mathbb{R}^n vRn,都能够写成 { x 1 , x 2 , ⋯ &ThinSpace; , x n } \{x_1,x_2,\cdots,x_n\} {x1,x2,,xn}向量集合的线性表示。

将向量 y ∈ R n y \in \mathbb{R}^n yRn投影至 { x 1 , x 2 , ⋯ &ThinSpace; , x n } \{x_1,x_2,\cdots,x_n\} {x1,x2,,xn}的张成(span)之上(这里我们假设 x i ∈ R n x_i \in \mathbb{R}^n xiRn)的向量是 v ∈ s p a n ( { x 1 , x 2 , ⋯ &ThinSpace; , x n } ) v \in span(\{x_1,x_2,\cdots,x_n\}) vspan({x1,x2,,xn}),在 l 2 l_2 l2范数的距离上,向量 v v v将尽可能的接近向量 y y y,即 ∣ ∣ v − y ∣ ∣ 2 ||v-y||_2 vy2要尽可能的小。我们将投影(projection)记为 P r o j ( y ; { x 1 , x 2 , ⋯ &ThinSpace; , x n } ) Proj(y;\{x_1,x_2,\cdots,x_n\}) Proj(y;{x1,x2,,xn}),并且投影的定义如下:
P r o j ( y ; { x 1 , x 2 , ⋯ &ThinSpace; , x n } ) = a r g m i n v ∈ s p a n ( { x 1 , x 2 , ⋯ &ThinSpace; , x n } ) ∣ ∣ y − v ∣ ∣ 2 Proj(y;\{x_1,x_2,\cdots,x_n\})=argmin_{v \in span(\{x_1,x_2,\cdots,x_n\})}||y-v||_2 Proj(y;{x1,x2,,xn})=argminvspan({x1,x2,,xn})yv2
矩阵 A ∈ R m × n A \in\mathbb{R}^{m \times n} ARm×n的值域(也称为列空间),记作 R ( A ) R(A) R(A),矩阵A的值域是由矩阵A的列所张成(span)。记为:
R ( A ) = { v ∈ R m : v = A x , x ∈ R n } R(A)=\{v \in \mathbb{R}^m:v=Ax,x \in \mathbb{R}^n \} R(A)={vRm:v=Ax,xRn}
若假设矩阵A是满秩且n<m,那么向量 y ∈ R m y \in \mathbb{R}^m yRm在矩阵A值域上的投影如下:
P r o j ( y ; { x 1 , x 2 , ⋯ &ThinSpace; , x n } ) = a r g m i n v ∈ R ( A ) ∣ ∣ y − v ∣ ∣ 2 = A ( A T A ) − 1 A T y Proj(y;\{x_1,x_2,\cdots,x_n\})=argmin_{v \in R(A)}||y-v||_2=A(A^TA)^{-1}A^Ty Proj(y;{x1,x2,,xn})=argminvR(A)yv2=A(ATA)1ATy
如果矩阵A只有一个列向量( a ∈ R m a\in \mathbb{R}^m aRm)的特殊情况下,y在一个列向量的线投影如下:
P r o j ( y : a ) = a a T a T a y Proj(y:a)={\frac{aa^T}{a^Ta}}y Proj(y:a)=aTaaaTy
矩阵 A ∈ R m × n A \in\mathbb{R}^{m \times n} ARm×n的零空间,记作 N ( A ) N(A) N(A),这表示所有的向量乘以矩阵A时都为0,记作:
N ( A ) = { x ∈ R n : A x = 0 } N(A)=\{x \in \mathbb{R}^n:Ax=0 \} N(A)={xRn:Ax=0}
需要注意的是向量在 R ( A ) R(A) R(A)的维度是 m m m,在 N ( A ) N(A) N(A)中的维度是 n n n.所以 R ( A T ) R(A^T) R(AT) N ( A ) N(A) N(A)都是属于 R n \mathbb{R}^n Rn。实际上
{ w : w = u + v , u ∈ R ( A T ) , v ∈ N ( A ) } = R n   a n d   R ( A T ) ∩ N ( A ) = { 0 } \{w:w=u+v,u\in R(A^T),v \in N(A) \}=\mathbb{R}^n\ and \ R(A^T) \cap N(A)=\{0\} {w:w=u+v,uR(AT),vN(A)}=Rn and R(AT)N(A)={0}
换句话说, R ( A T ) R(A^T) R(AT) N ( A ) N(A) N(A)是两个交集为空,并集为 R n \R^n Rn空间,这种集合我们称为正交补集合,记为: R ( A T ) = N ( A ) ⊥ R(A^T)=N(A)^{\bot} R(AT)=N(A)

3.10 The Determinant(行列式)

方阵 A ∈ R n × n A \in \R^{n \times n} ARn×n的行列式是一个由 R n × n \R^{n \times n} Rn×n R \R R的函数,我们记为 ∣ A ∣ |A| A或者 d e t   A det \ A det A。虽然我们可以用代数公式来直接表示这个行列式,但是这个表达式对矩阵并没有任何直接意义。所有我们先解释行列式的几何意义,再研究它的特殊代数性质。

给一个这样的矩阵:
[ — a 1 T — — a 2 T — ⋮ — a n T — ] \left[

amp;a1Tamp;amp;a2Tamp;amp;amp;amp;anTamp;
\right] a1Ta2TanT
考虑由矩阵A中的向量 a 1 , ⋯ &ThinSpace; , a n ∈ R n a_1,\cdots,a_n \in \R^n a1,,anRn所有可能的线性组合构成的点集合 S ⊂ R n S\subset\R^n SRn,其中线性组合的系数都在0和1之间。也就是说 S S S被限制于 s p a n ( { a 1 , a 2 , ⋯ &ThinSpace; , a n } ) span(\{a_1,a_2,\cdots,a_n\}) span({a1,a2,,an})的系数为0到1的线性组合。写作:
S = { v ∈ R n : v = ∑ i = 1 n α i a i , 当 且 仅 当 0 ≤ α i ≤ 1 , i = 1 , ⋯ &ThinSpace; , n } S = \{v \in \R^n:v=\sum^n_{i=1} \alpha_i a_i,当且仅当 0\leq \alpha_i\leq1,i=1,\cdots,n \} S={vRn:v=i=1nαiai,0αi1,i=1,,n}
事实证明,矩阵Ade行列式 ∣ A ∣ |A| A的绝对值,是对集合 S S S的"体积"的度量。

例如,给出一个 2 × 2 2 \times 2 2×2的矩阵:
A = [ 1 3 3 2 ] A =\left[

1amp;33amp;2
\right] A=[1332]
则组成矩阵的列向量
a 1 = [ 1 3 ]   , a 2 = [ 3 2 ] a_1 =\left[
13
\right] \ , a_2 =\left[
32
\right]
a1=[13] ,a2=[32]

对于二维矩阵,点集S通常组成平行四边形,如下图所示。其中阴影部分的面积为7,而 ∣ A ∣ = − 7 |A|=-7 A=7

在这里插入图片描述

在三维矩阵中,点集合S组成的形状为平行六面体,而平行六面体的体积恰好对应了三维矩阵的行列式的绝对值。在更高的维度中,点集合S组成是一个n维的超平行体。

在代数上行列式满足以下三个基本属性:

  1. 单位矩阵的行列式值为1, ∣ E ∣ = 1 |E| = 1 E=1(在几何上,超立方体的体积为1)

  2. 给定一个矩阵 A ∈ R n × n A \in \R^{n \times n} ARn×n,如果我们给矩阵A的其中一行乘以一个标量 t ∈ R t \in \R tR,则行列的值为 t ∣ A ∣ t|A| tA
    ∣ [ — t a 1 T — — a 2 T — ⋮ — a n T — ] ∣ = t ∣ A ∣ \left| \left[

    amp;ta1Tamp;amp;a2Tamp;amp;amp;amp;anTamp;
    \right] \right| = t|A| ta1Ta2TanT=tA
    (几何上,点集合S的某条表乘以系数t,会导致体积变为t倍)

  3. 如果我们交换矩阵A中的任意的两行 a i T a^T_i aiT a j T a^T_j ajT,这个变化后的矩阵的行列式的值变为原来的负数,即 − ∣ A ∣ -|A| A

由以上结论我们得到以下推论:

  • 对于 A ∈ R n × n , ∣ A ∣ = ∣ A T ∣ A \in \R^{n \times n},|A|=|A^T| ARn×n,A=AT

  • 对于 A , B ∈ R n × n , ∣ A B ∣ = ∣ A ∣ ∣ B ∣ A,B\in \R^{n\times n},|AB|=|A||B| A,BRn×n,AB=AB

  • 对于 A ∈ R n × n A\in \R^{n \times n} ARn×n并且 A A A是可逆的, ∣ A − 1 ∣ = 1 / ∣ A ∣ |A^{-1}|=1/|A| A1=1/A

  • 对于 A ∈ R n × n , ∣ A ∣ = 0 A \in R^{n \times n},|A| =0 ARn×n,A=0当且仅当A是不可逆的。(如果A是不可逆的,则A不是满秩且列向量是线性相关的,对于集合S来说这对应与n维空间中的"平面",所以体积为0)

    (后面有关行列式的计算公式,太简单了省略)

3.11 Quadratic Forms and Positive Semidefinite Matrices(二次型和半正定矩阵)

给定一个矩阵 A ∈ R n × n A \in \R^{n\times n} ARn×n并且,一个向量 x ∈ R n x \in \R^n xRn,当 x T A x x^TAx xTAx是一个标量(常数)时,我们称为二次型。写作:
x T A x = ∑ i = 1 n x i ( A x ) i = ∑ i = 1 n x i ( ∑ j = 1 n A i j x i ) = ∑ i = 1 n ∑ j = 1 n A i j x i x j x^TAx=\sum^n_{i=1}x_i(Ax)_i=\sum^n_{i=1}x_i(\sum^n_{j=1}A_{ij}x_i)=\sum^n_{i=1}\sum^n_{j=1}A_{ij}x_ix_j xTAx=i=1nxi(Ax)i=i=1nxi(j=1nAijxi)=i=1nj=1nAijxixj
也写作:
x T A x = ( x T A x ) T = x T A T x = x T ( 1 2 A + 1 2 A T ) x x^TAx=(x^TAx)^T=x^TA^Tx=x^T(\frac{1}{2}A+\frac{1}{2}A^T)x xTAx=(xTAx)T=xTATx=xT(21A+21AT)x
证明:
∵ x T A x 是 常 量 , 则 常 量 的 转 置 等 于 常 量 本 身 ∴ x T A x = ( x T A x ) T = x T A T x ∴ x T A x + x T A T x = 2 x T A x ∴ x T A x = ( x T A x ) T = x T A T x = x T ( 1 2 A + 1 2 A T ) x \because x^TAx是常量,则常量的转置等于常量本身\\ \therefore x^TAx=(x^TAx)^T=x^TA^Tx\\ \therefore x^TAx+x^TA^Tx=2x^TAx\\ \therefore x^TAx=(x^TAx)^T=x^TA^Tx=x^T(\frac{1}{2}A+\frac{1}{2}A^T)x xTAx,xTAx=(xTAx)T=xTATxxTAx+xTATx=2xTAxxTAx=(xTAx)T=xTATx=xT(21A+21AT)x
由此我们得出结论,只有矩阵A为对称的才有助于形成二次型。因此我们经常隐性的假定以二次型出现的矩阵是对称矩阵。

我们给出以下定义:

  • 对称矩阵A是正定(PD),则对于所有的非零向量 x ∈ R n , x T A x &gt; 0 x \in \R^n,x^TAx&gt;0 xRnxTAx>0,这通常被写作 A ≻ 0 A≻0 A0(或者 A &gt; 0 A&gt;0 A>0),对于所有的正定矩阵都被写作 S + + n \mathbb S^n_{++} S++n
  • 对称矩阵A是半正定(PSD),则对于所有的向量 x T A x ≥ 0 x^T Ax ≥ 0 xTAx0.这被写作 A ≽ 0 A ≽ 0 A0(或者 A ≥ 0 A ≥ 0 A0),对于所有的半正定矩阵都被写作 S + n \mathbb S^n_{+} S+n
  • 对称矩阵A是负定(ND),则对于所有的非零向量 x ∈ R n x \in \R^n xRn, x T A x &lt; 0 x^T Ax &lt; 0 xTAx<0.这被写作 A ≺ 0 A ≺0 A0(或者 A &lt; 0 A &lt; 0 A<0).
  • 对称矩阵A是半负定(NSD),则对于所有的向量 x ∈ R n x \in \R^n xRn, x T A x ≤ 0 x^T Ax ≤ 0 xTAx0.这被写作 A ≼ 0 A ≼ 0 A0(或者 A ≤ 0 A ≤ 0 A0).
  • 对称矩阵A是不定,则既不是正半定也不是负半定,即:存在 x 1 , x 2 ∈ R n x_1,x_2 \in R^n x1,x2Rn,使得 x 1 T A x 1 &gt; 0 , x 2 T A x 2 x^T_1Ax_1&gt;0,x^T_2Ax_2 x1TAx1>0x2TAx2

很明显,如果A是正定的,那么−A是负定的,反之亦然。同样,如果A是正半定的,那么−A是负半定的,反之亦然。如果A不确定,那么−A也是。

正定矩阵和负定矩阵的一个重要性质是它们总是满秩,因此是可逆的(如果不是满秩的,则其中存在一个列向量,能由其他列向量线性表示,即 a j = ∑ i ̸ = j x i a i a_j=\sum_{i \not= j}x_ia_i aj=i̸=jxiai.那我们可找到一个列向量 x x x使 A x = 0 Ax=0 Ax=0,则存在 x T A x = 0 x^TAx=0 xTAx=0,所有不是正定、负定)。

最后,有一类常出现的正定矩阵,值得特别注意。给一个任意矩阵 A ∈ R m × n A \in \R^{m \times n} ARm×n(不一定是正定的或者方阵),矩阵 G = A T A G=A^TA G=ATA(有时称矩阵G为格拉姆矩阵)总是半正定的。此外,如果 m ≥ n m ≥ n mn(为了方便我们假设A是满秩的),那么G是正定的。

3.12 Eigenvalues and Eigenvectors(特征值和特性向量)

给定一个方阵 A ∈ R n × n A \in \R^{n \times n} ARn×n,如果
A X = λ x , x ̸ = 0 AX=\lambda x,x \not= 0 AX=λx,x̸=0
λ ∈ C \lambda \in \mathbb C λC是矩阵A的特征值, x ∈ C n x \in \mathbb C^n xCn是矩阵A的特征向量。

直观地说,这个定义意味着将 A A A乘以向量 x x x会得到一个新的向量,该向量指向与x相同的方向,但按系数 λ λ λ缩放。也要注意对于任意的特征向量 x ∈ C n x\in\mathbb C^n xCn和标量 t ∈ C t \in \mathbb C tC A ( c x ) = c A x = c λ x = λ ( c x ) A(cx)=cAx=cλx=λ(cx) A(cx)=cAx=cλx=λ(cx),所以 c x cx cx也是特征向量。因此,当我们讨论与 λ λ λ相关的“特征向量”时,我们通常假设特征向量标准化为长度1(这仍然会造成一些歧义,因为长度为1的向量 x x x − x −x x都是特征向量)

我们可以重写上的等式来求解特征向量:
( λ I − A ) x = 0 ,   x ≠ 0 (λI-A)x=0,\ x\neq 0 (λIA)x=0, x̸=0
( λ I − A ) x = 0 (λI-A)x=0 (λIA)x=0有非零解向量 x x x,只有当且仅当 ( λ I − A ) (λI-A) (λIA)有非空的零空间。所以等价于 ( λ I − A ) x (λI-A)x (λIA)x是非奇异的(不可逆的),即:
∣ ( λ I − A ) ∣ = 0 |(λI-A)|=0 (λIA)=0
以下为特征值的性质:

  • 矩阵A的迹等于特征值的和
    t r A = ∑ i = 1 n λ i trA=\sum^n_{i=1}λ_i trA=i=1nλi

  • 矩阵A的行列式等于特征值的乘积
    ∣ A ∣ = ∏ i = 1 n λ i |A|=\prod^n_{i=1}λ_i A=i=1nλi

  • 矩阵A的秩等于非零特征值的个数

  • 如果A可逆,那么 1 / λ 1/λ 1/λ是矩阵 A − 1 A^{-1} A1的特征值,以及相关的特征向量,即 A − 1 x i = ( 1 / λ i ) x i A^{-1}x_i=(1/λ_i)x_i A1xi=(1/λi)xi

  • 对角矩阵的特征值就是主对角线元素的值

我们可以同时写出所有特征向量的方程
A X = X Λ AX=X\Lambda AX=XΛ
X ∈ R x × n X \in \R^{x \times n} XRx×n的列向量是Ade特征向量, Λ \Lambda Λ是由A的特征值组成的对角矩阵

如果A的特征向量是线性无关的,则矩阵X是可逆的。那我们也可以写成一下形式 A = X Λ X − 1 A=X\Lambda X^{-1} A=XΛX1,这种形式我们称为矩阵A可对角化。

3.13 Eigenvalues and Eigenvectors of Symmetric Matrices(对称矩阵的特征值和特征向量)

当我们研究对称矩阵 A ∈ S n A\in \mathbb S^n ASn的特征值和特征向量时,会得到两个显著的性质。

  1. 对称矩阵A的特征值都是实数
  2. 对称矩阵A的特征向量都是正交的

我们将正交的矩阵X定义为U(因为正交矩阵的逆等于矩阵的转置),所以矩阵A可以表示为 A = U Λ U T A=U\Lambda U^T A=UΛUT.

由此我们可以发现矩阵的确定性完全取决于其特征值的符号(假设 A ∈ S n = U Λ U T A \in \mathbb S^n= U\Lambda U^T ASn=UΛUT),那么:
x T A x = x T U Λ U T x = y T Λ y = ∑ i = 1 n λ i y i 2 x^TAx=x^TU\Lambda U^Tx=y^T\Lambda y=\sum_{i=1}^n{\lambda _{i}y^2_i} xTAx=xTUΛUTx=yTΛy=i=1nλiyi2
其中 y = U T x y=U^Tx y=UTx(因为U是满秩的,所以对于任意的 y ∈ R n y\in\R^n yRn都可以被线性表示)。因为 y i 2 y^2_i yi2总是正数,所以此时的符号完全取决于特征值 λ i \lambda_i λi,如果 λ i &gt; 0 \lambda_i &gt; 0 λi>0,则矩阵A是正定的,如果 λ i ≥ 0 \lambda_i \geq 0 λi0,则矩阵A是半正定的。同理负定和半负定、不定类似。

特征值和特征向量经常被应用于最大化某些矩阵的函数。特别的对于矩阵 A ∈ S n A\in \mathbb S^n ASn,思考一下这个最大化问题:
m a x x ∈ R n x T A x     条 件 : ∣ ∣ x ∣ ∣ 2 2 = 1 max_{x\in \R^n}x^TAx \ \ \ 条件:||x||^2_2=1 maxxRnxTAx   x22=1
即:我们要找到 l 2 l2 l2范数为1的向量,使得矩阵Ade二次型最大化。假设特征值的顺序如下: λ 1 ≥ λ 2 ≥ ⋯ ≥ λ n \lambda_1\geq\lambda_2\geq \cdots\geq\lambda_n λ1λ2λn,这个问题的最优解是 λ 1 \lambda_1 λ1对应的特征向量 x 1 x_1 x1,在这种情况下,二次型的最大值是 λ 1 \lambda_1 λ1。同样的最小化问题的最优解是 λ n , x n \lambda_n,x_n λn,xn.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/721919
推荐阅读
相关标签
  

闽ICP备14008679号