我家小花儿

这个屌丝很懒，什么也没留下！

热门标签

十一.Logistic回归原理_逻辑回归按列求均匀

作者：我家小花儿 | 2024-05-05 22:32:33

踩

逻辑回归按列求均匀

1.回归和分类

回归的预测值 $y$ 为连续值，分类的预测值 $y$ 为离散值。
Logistic回归的名字中虽然有回归二字，但其实是二分类算法。

2.Logistic函数

Logistic函数为两端饱和S型曲线函数，它将自变量的输出值固定在 $[0, 1]$ 区间上。
Logistic函数原型为：
$g(z)=\frac{1}{1+e^{-z} }$
它的导数为：
$g(z)=\frac{e^{-z} }{(1+e^{-z})^{2} } =(\frac{1}{1+e^{-z} } )(1-\frac{1}{1+e^{-z} } )=g(z)(1-g(z))$

3.Logistic回归模型

Logistic回归通过Logistic函数，将输出固定在 $[0, 1]$ 区间。通常情况下，当输出小于 $0.5$ 时，输出为0；当时输出大于 $0.5$ 时，输出为1：
$h_{\theta }(\mathbf{x}) =\frac{1}{1-e^{\mathbf{-\theta ^{T} x} } } ,\theta \in R^{n\times 1},\mathbf{x}\in R^{n\times 1} ,h_{\theta }(\mathbf{x}) \in R$

4.损失函数推导

对于Logistic的损失函数，通常有两种解释。

(1)交叉熵

可以用信息论中的交叉熵衡量预测值 $h_{\theta}(\mathbf{x})$ 和真实值 $y$ 之间的距离，交叉熵越小，效果越好:
$J(\theta )=-\sum_{i=1}^{m}[y^{i}\log h(\mathbf{\theta ^{T}X^{i}})+(1-y^{i} )(1-\log h(\mathbf{\theta ^{T}X^{i}})) ]$
其中， $\mathbf{X^{i}}\in R^{n\times 1} ,y\in R，\theta \in R^{n\times 1}$ 。

(2)极大似然估计

使用极大似然估计，估计每个某个样本是某个类别的概率最大的时候的参数。
由于 $h(\mathbf{\theta ^{T}x})$ 的范围为[0,1]，可将其看做概率分布：
$\left.$

\begin{matrix} P (y = 1 | x, θ) = h (θ^{T} x) \\ P (y = 0 | x, θ) = 1 - h (θ^{T} x) \end{matrix}

$\begin{matrix} P(y=1|\mathbf{x},\theta )=h(\theta ^{T}\mathbf{x} )\\ P(y=0|\mathbf{x},\theta )=1-h(\theta ^{T}\mathbf{x} ) \end{matrix}$ \right\}\to P(y|\mathbf{x},\theta )=h(\theta ^{T}\mathbf{x})^{y} (1-h(\theta ^{T}\mathbf{x}))^{1-y}

P (y = 1 ∣ x, θ) = h (θ^{T} x) P (y = 0 ∣ x, θ) = 1 - h (θ^{T} x)} \to P (y ∣ x, θ) = h (θ^{T} x)^{y} (1 - h (θ^{T} x))^{1 - y}

假设每个样本之间相互独立，则似然函数为：

L(\theta ) =\prod_{i=1}^{m} h(\mathbf{\theta ^{T}x^{i}} )^{y^{i} } (1-h(\mathbf{\theta ^{T}x^{i}} ))^{1-y^{i} }

将似然函数取对数再取反作为损失函数，则极大似然估计转化为极小化损失函数：

J(\theta )=-\sum_{i=1}^{m}[y^{i}\log h(\mathbf{\theta ^{T}X^{i}})+(1-y^{i} )(1-\log h(\mathbf{\theta ^{T}X^{i}})) ]

可以看到，极大似然估计所得到的损失函数与交叉熵相同。

5.参数学习的计算方法

Logistic回归的参数学习方法一般为梯度下降法。梯度下降的关键是求损失函数对参数的梯度，这里用两种方法来给出梯度下降过程。

(1)代数法

损失函数：
$J(\theta )=-\sum_{i=1}^{m}[y^{i}\log h(\mathbf{\theta ^{T}X^{i}})+(1-y^{i} )(1-\log h(\mathbf{\theta ^{T}X^{i}})) ]$
其中， $J(\theta )\in R,h(\theta^{T} \mathbf{X^{i}} )\in R,\mathbf{X^{i}}\in R^{n\times 1} ,y\in R，\theta \in R^{n\times 1}$ 。欲求 $\frac{\partial J(\theta )}{\partial \theta }$ ，标量对向量求导，使用链式法则：

\begin{aligned} \frac{\partial J (θ)}{\partial θ} & = - \sum_{i = 1}^{m} [y^{i} \frac{1}{h (θ^{T} X^{i})} + (1 - y^{i}) (1 - \frac{1}{h (θ^{T} X^{i})})] \frac{\partial h (θ^{T} X^{i})}{\partial θ^{T} X^{i}} \frac{\partial θ^{T} X^{i}}{\partial θ^{T}} （ 对 h (θ^{T} X^{i}) 求 导 ） \\ = - \sum_{i = 1}^{m} [y^{i} \frac{1}{h (θ^{T} X^{i})} + (1 - y^{i}) (1 - \frac{1}{h (θ^{T} X^{i})})] h (θ^{T} X^{i}) (1 - h (θ^{T} X^{i})) X^{i} （ L o g i s t i c 函 数 求 导 ） \\ = - \sum_{i = 1}^{m} [y^{i} (1 - h (θ^{T} X^{i})) + (1 - y^{i}) (1 - h (θ^{T} X^{i})] X^{i} (合 并 同 类 项) \\ = \sum_{i = 1}^{m} [h (θ^{T} X^{i}) - y^{i}] X^{i} \end{aligned}

$\begin{aligned} \frac{\partial J(\theta )}{\partial \theta } &=-\sum_{i=1}^{m}[y^{i}\frac{1}{h(\theta^{T} \mathbf{X}^{i} )}+(1-y^{i})(1-\frac{1}{h(\theta^{T} \mathbf{X}^{i})})]\frac{\partial h(\theta^{T} \mathbf{X}^{i})}{\partial \theta^{T} \mathbf{X}^{i}}\frac{\partial \theta^{T} \mathbf{X}^{i}}{\partial \theta^{T}}（对h(\theta^{T} \mathbf{X}^{i})求导） \\ &=-\sum_{i=1}^{m}[y^{i}\frac{1}{h(\theta^{T} \mathbf{X}^{i} )}+(1-y^{i})(1-\frac{1}{h(\theta^{T} \mathbf{X}^{i})})]h(\theta^{T} \mathbf{X}^{i})(1-h(\theta^{T} \mathbf{X}^{i}))\mathbf{X}^{i}（Logistic函数求导） \\ &=-\sum_{i=1}^{m}[y^{i}(1-h(\theta^{T} \mathbf{X}^{i} ))+(1-y^{i})(1-h(\theta^{T} \mathbf{X}^{i} )] \mathbf{X}^{i}(合并同类项) \\ &=\sum_{i=1}^{m} [h(\theta^{T} \mathbf{X}^{i} )-y^{i}]\mathbf{X}^{i} \end{aligned}$

\frac{\partial J ( θ )}{\partial θ} = - i = 1 \sum m [y^{i} \frac{1}{h ( θ ^{T} X ^{i} )} + (1 - y^{i}) (1 - \frac{1}{h ( θ ^{T} X ^{i} )})] \frac{\partial h ( θ ^{T} X ^{i} )}{\partial θ ^{T} X ^{i}} \frac{\partial θ ^{T} X ^{i}}{\partial θ ^{T}} （ 对 h (θ^{T} X^{i}) 求 导 ） = - i = 1 \sum m [y^{i} \frac{1}{h ( θ ^{T} X ^{i} )} + (1 - y^{i}) (1 - \frac{1}{h ( θ ^{T} X ^{i} )})] h (θ^{T} X^{i}) (1 - h (θ^{T} X^{i})) X^{i} （ L o g i s t i c 函 数 求 导 ） = - i = 1 \sum m [y^{i} (1 - h (θ^{T} X^{i})) + (1 - y^{i}) (1 - h (θ^{T} X^{i})] X^{i} (合 并 同 类 项) = i = 1 \sum m [h (θ^{T} X^{i}) - y^{i}] X^{i}

则第

k

轮的梯度为：

\sum_{i=1}^{m} [h(\theta^{T} \mathbf{X}^{i} )-y^{i}]\mathbf{X}^{i}

第

k + 1

次的迭代值为：

\theta^{k+1}=\theta^{k}-\lambda\sum_{i=1}^{m} [h(\theta^{T} \mathbf{X}^{i} )-y^{i}]\mathbf{X}^{i}

(2)矩阵法

矩阵法的表示更加简洁明了，计算更方便。矩阵法表示损失函数为：
$J(\theta )=-\mathbf{y} ^{T}\log h(\mathbf{X\theta } )-(\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta})),h(\mathbf{X\theta})=\frac{1}{1+e^{\mathbf{X\theta }} }$
其中，各项维度为下：
$\mathbf{y}\in R ^{m\times 1} 为one-hot向量，E\in R ^{m\times 1}为全1向量,\mathbf{X} \in R ^{m\times n},\theta \in R^{n\times 1},h(\mathbf{X\theta } ) \in R^{m\times 1},J(\theta ) \in R。$
求 $\frac{\partial J(\theta )}{\partial \theta }$ ，可以拆分为：
$\frac{\partial J(\theta )}{\partial \theta } =-\frac{\partial \mathbf{y} ^{T}\log h(\mathbf{X\theta } )}{\partial \theta }-\frac{\partial (\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta}))}{\partial \theta }$
根据标量对向量求导的链式法则，对中间量 $\mathbf{X\theta }$ 求导，上式可进一步写成：
$\frac{\partial J(\theta )}{\partial \theta } =-(\frac{\partial \mathbf{X\theta }}{\partial \theta })^{T} \frac{\partial \mathbf{y} ^{T}\log h(\mathbf{X\theta } )}{\partial \mathbf{X\theta } }-(\frac{\partial \mathbf{X\theta }}{\partial \theta })^{T} \frac{\partial (\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta}))}{\partial \mathbf{X\theta }}$
上式中：
$(\frac{\partial \mathbf{X\theta }}{\partial \theta })^{T} =\mathbf{X} ^{T}$
再分别求另外两项：
①求 $\frac{\partial \mathbf{y} ^{T}\log h(\mathbf{X\theta } )}{\partial \mathbf{X\theta } }$ ，标量对向量求导，使用矩阵微分：

\begin{aligned} d y^{T} \log h (X θ) & = t r [d y^{T} \log h (X θ)] （ 标 量 的 转 置 ） \\ = t r [y^{T} d \log h (X θ)] (矩 阵 微 分 乘 法 法 则) \\ = t r [y^{T} ⊙ \frac{1}{h (X θ)} ⊙ h (X θ) ⊙ (E - h (X θ)) d (X θ)] (逐 元 素 微 分) \\ = t r [y^{T} ⊙ E ⊙ (E - h (X θ)) d (X θ)] (合 并 同 类 项) \\ = t r [y^{T} - y^{T} ⊙ h (X θ)] d (X θ) (合 并 同 类 项) \end{aligned}

$\begin{aligned} d \mathbf{y} ^{T}\log h(\mathbf{X\theta } )&=tr[d \mathbf{y} ^{T}\log h(\mathbf{X\theta } )]（标量的转置） \\&=tr[\mathbf{y} ^{T}d\log h(\mathbf{X\theta } )](矩阵微分乘法法则) \\&=tr[\mathbf{y} ^{T}\odot\frac{1}{h(\mathbf{X\theta } ) }\odot h(\mathbf{X\theta } )\odot (E-h(\mathbf{X\theta } ))d(\mathbf{X\theta })](逐元素微分) \\&=tr[\mathbf{y} ^{T}\odot E \odot (E-h(\mathbf{X\theta } ))d(\mathbf{X\theta })](合并同类项) \\&=tr[\mathbf{y} ^{T}-\mathbf{y} ^{T}\odot h(\mathbf{X\theta })]d(\mathbf{X\theta })(合并同类项) \end{aligned}$

d y^{T} lo g h (X θ) = t r [d y^{T} lo g h (X θ)] （ 标 量 的 转 置 ） = t r [y^{T} d lo g h (X θ)] (矩 阵 微 分 乘 法 法 则) = t r [y^{T} ⊙ \frac{1}{h ( X θ )} ⊙ h (X θ) ⊙ (E - h (X θ)) d (X θ)] (逐 元 素 微 分) = t r [y^{T} ⊙ E ⊙ (E - h (X θ)) d (X θ)] (合 并 同 类 项) = t r [y^{T} - y^{T} ⊙ h (X θ)] d (X θ) (合 并 同 类 项)

最终求得：

\frac{\partial \mathbf{y} ^{T}\log h(\mathbf{X\theta } )}{\partial \mathbf{X\theta } }=(\mathbf{y} ^{T}-\mathbf{y} ^{T}\odot h(\mathbf{X\theta }))^{T}=\mathbf{y}-\mathbf{y}\odot h(\mathbf{X\theta })

②求

\frac{\partial (\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta}))}{\partial \mathbf{X\theta}}

，标量对向量求导，使用矩阵微分:

\begin{aligned} d [(E - y)^{T} \log (E - h (X θ))] & = t r [d ((E - y)^{T} \log (E - h (X θ)))] （ 标 量 的 迹 ） \\ = t r [(E - y)^{T} d \log (E - h (X θ))] （ 矩 阵 乘 法 法 则 ） \\ = t r [- (E - y)^{T} ⊙ \frac{1}{E - h (X θ))} ⊙ h (X θ) ⊙ (E - h (X θ)) d X θ] （ 逐 元 素 微 分 ） \\ = t r [- (E - y)^{T} ⊙ h (X θ) d X θ] \end{aligned}

最终得：

\frac{\partial (\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta}))}{\partial \mathbf{X\theta}}=[-(\mathbf{E-y} )^{T}\odot h(\mathbf{X\theta})d\mathbf{X\theta} ]^{T} =-(\mathbf{E-y} )\odot h(\mathbf{X\theta})d\mathbf{X\theta}=\mathbf{y}\odot h(\mathbf{X\theta})- h(\mathbf{X\theta})

综上，最终得损失函数对参数的梯度：

\begin{aligned} \frac{\partial J (θ)}{\partial θ} & = - (\frac{\partial X θ}{\partial θ})^{T} \frac{\partial y^{T} \log h (X θ)}{\partial X θ} - (\frac{\partial X θ}{\partial θ})^{T} \frac{\partial (E - y)^{T} \log (E - h (X θ))}{\partial X θ} \\ = X^{T} [- y + y ⊙ h (X θ) - y ⊙ h (X θ) + h (X θ)] \\ = X^{T} [h (X θ) - y] \end{aligned}

则第

k

次迭代的梯度向量为：

\mathbf{X} ^{T} [h(\mathbf{X\theta}^{k})-\mathbf{y}]

第

k + 1