机器学习李宏毅学习笔记-1_李宏毅正态分布

作者：从前慢现在也慢 | 2024-08-12 04:05:30

踩

李宏毅正态分布

机器学习李宏毅学习笔记-1

1、了解什么是Machine learning？
2、学习中心极限定理，学习正态分布，学习最大似然估计
3、学习导数，泰勒展开
- 3.1推导梯度下降公式
- 3.2写出梯度下降的代码
4、学习L0-Norm，L1-Norm，L2-Norm

1、了解什么是Machine learning？

那么机器学习到底是什么东东呢？是造一个机器人来学习吗，非也。按照李宏毅老师的说法，机器学习相当于找一个函数(looking for a Function)。

ML的一般步骤：
step1: Model(a set of functions)

第一步就是找个模型，也就是找一个函数/算法模板。线性回归的模型呢，就是一个线性的函数啦: y = wx+b (w和x为向量)

step2: Goodness of functionon(Loss function)

确定了模型的构造方法，下一步就是确定模型的具体参数。这一步通常会构建损失函数来衡量模型的好坏，线性回归用到的损失函数是均方误差，也就是经典的“最小二乘法”

step3: Pick the ‘best’ function

得到了损失函数，接着就是怎么求解了。也许你会直接背出公式，但对于计算机来说，采用梯度下降的方法可能更简单一些.

2、学习中心极限定理，学习正态分布，学习最大似然估计

中心极限定理：
设随机变量X1，X2，…Xn，…独立同分布，并且具有有限的数学期望和方差：E(Xi)=μ，D(Xi)=σ^2(i=1,2…)，则对任意x，分布函数
$F_{n}(x)=P\left\{\frac{\sum_{i=1}^{n}-n \mu}{\sqrt{n} \sigma} \leq x\right\}$
满足： $\lim _{n \rightarrow \infty} F_{n}(x)=\lim _{n \rightarrow \infty}\left\{\frac{\sum_{i=1}^{n} X_{i}-n \mu}{\sqrt{n} \sigma} \leq x\right\}=\frac{1}{\sqrt{2} \pi} \int_{-\infty}^{x} e^{-\frac{t^{2}}{2}} d t=\Phi(x)$

正态分布的概率密度函数：
$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}$
记作： $\sim N\left(\mu, \sigma^{2}\right)$
当 $\mu =0,\sigma^{2}=1$ 时, 记作 : $\sim N\left(0, 1\right)$ 为标准正态分布函数 : $\Phi(x)$

极大似然估计：
极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。
求极大似然估计步骤：
1、写出似然函数(连续性):
$L\left(\theta | x_{1}, x_{2}, \cdots, x_{n}\right)=f\left(x_{1}, x_{2}, \cdots, x_{n} | \theta\right)=\prod f\left(x_{i} | \theta\right)$
2、取对数
$\ln L\left(\theta | x_{1}, \ldots, x_{n}\right)=\sum_{i=1}^{n} \ln f\left(x_{i} | \theta\right)$
3、求出使得对数似然函数取最大值的参数的值

让 $\frac{\partial \ln L(\theta| x_{1}, \ldots, x_{n})}{\partial \theta_{j}}=0, j=1,2, \ldots, k$ 解得: $\theta$

2.1推导回归Loss function

线性回归模型可以表示为：
1、 $y=h_{\theta}(x)+\epsilon$
2、 $\epsilon^{(i)} \sim N\left(0, \delta^{2}\right), \epsilon^{(i)}$ 服从正态分布
即y由模型拟合以及随机扰动构成，而由中心极限定理，我们假设随机扰动ϵ服从均值为0方差为 $\delta^{2}$ 的正态分布。
由于中心极限定理和大数定理：
$p\left(y^{(i)} | y^{(i)} ; \theta\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right)$
1、求得到极大似然函数：

\begin{matrix} L (θ) = \prod_{i = 1}^{m} p (y^{(i)} | y^{(i)}; θ) \\ = \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} σ} \exp (- \frac{{(y^{(i)} - θ^{T} x^{(i)})}^{2}}{2 σ^{2}}) \end{matrix}

$\begin{array}{c}{L(\theta)=\prod_{i=1}^{m} p\left(y^{(i)} | y^{(i)} ; \theta\right)} \\{=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right)}\end{array}$

L (θ) = \prod_{i = 1}^{m} p (y^{(i)} ∣ y^{(i)}; θ) = \prod_{i = 1}^{m} \frac{1}{2 π σ} exp (- \frac{( y ^{(i)} - θ ^{T} x ^{(i)} ) ^{2}}{2 σ ^{2}})

2、取对数

\log L(\theta)=\log \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) =\sum_{i=1}^{m} \log \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) =m \log \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{\sigma^{2}} \frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}

3、取最大值：
要取得上述函数的最大值，只能使得：

\frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}

所以我们得到线性Loss function

J(\theta)=\frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}

为了消除数据量的影响，改进线性损失函数为：

J(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}

2.2 学习损失函数与凸函数之间的关系

如果损失函数是凸函数（convex）的，梯度下降算法就一定能达到全局最优解。

2.3了解全局最优和局部最优

损失函数在梯度下降的过程中，可能会下降到局部最优点，局部最优点为极小值，而并非全局最优的最小值
如果损失函数为凸函数时，梯度下降能达到全局最优

3、学习导数，泰勒展开

导数：
$f^{\prime}\left(x_{0}\right)=\lim _{\Delta x \rightarrow 0} \frac{\Delta y}{\Delta x}=\lim _{\Delta x \rightarrow 0} \frac{f\left(x_{0}+\Delta x\right)-f\left(x_{0}\right)}{\Delta x}$
泰勒展开：
$f(x)=\frac{f\left(x_{0}\right)}{0 !}+\frac{f^{\prime}\left(x_{0}\right)}{1 !}\left(x-x_{0}\right)+\frac{f^{\prime \prime}\left(x_{0}\right)}{2 !}\left(x-x_{0}\right)^{2}+\ldots+\frac{f^{(n)}\left(x_{0}\right)}{n !}\left(x-x_{0}\right)^{n}+R_{n}(x)$
常用的拉格朗日余项： $R_{n}(x)=f^{(n+1)}\left[x_{0}+\theta\left(x-x_{0}\right)\right] \frac{\left(x-x_{0}\right)^{n+1}}{(n+1) !}$

3.1推导梯度下降公式

梯度下降公式的推导：
假设函数： $h_{{\theta}}\left(x_{0}\right)=\theta_{0}+\theta_{1} x_{i}, i=1, \cdots, n$

代价函数： $J(\theta)=\frac{1}{2n} \sum_{i=1}^{n}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}$
梯度下降公式：
$\theta_{0} :=\theta_{0}-\alpha \cdot \frac{\partial}{\partial \theta_{0}} J\left(\theta_{0}, \theta_{1}\right)$
$\theta_{1} :=\theta_{1}-\alpha\cdot \frac{\partial}{\partial \theta_{1}} \cdot J\left(\theta_{0}, \theta\right)$
梯度下降推导公式：
$\theta_{0}=\theta_{0}- \alpha\cdot \frac{1}{n} \sum_{i=1}^{n}\left(h_{0}\left(x_{i}\right)-y_{i}\right)$
$\theta_{1}=\theta_{1}-\alpha \cdot \frac{1}{n} \sum_{i=1}^{n} x_{i}\left(h_{g}\left(x_{2}\right)-y_{i}\right)$

3.2写出梯度下降的代码

 def batchGradientDescent(x, y, theta, alpha, m, maxIterations):
            xTrains = x.transpose()
            for i in range(0, maxIterations):
                hypothesis = np.dot(x, theta)
                loss = hypothesis - y
                # print loss
                gradient = np.dot(xTrains, loss) / m
                theta = theta - alpha * gradient
            return theta
1
2
3
4
5
6
7
8
9

4、学习L0-Norm，L1-Norm，L2-Norm

L0范数表示向量中非零元素的个数,也就是如果我们使用L0范数，即希望矩阵的大部分元素都是0. （矩阵是稀疏的）所以可以用于ML中做稀疏编码，特征选择。通过最小化L0范数，来寻找最少最优的稀疏特征项。但不幸的是，L0范数的最优化问题是一个NP,hard问题，而且理论上有证明，L1范数是L0范数的最优凸近似，因此通常使用L1范数来代替。
L1范数表示向量中每个元素绝对值的和，
$\|x\|_{1}=\sum_{i=1}^{n}\left|x_{i}\right|$
L2范数表示欧氏距离：
$\|x\|_{2}=\sqrt{\sum_{i=1}^{n} x_{i}^{2}}$

4.1推导正则化公式

正则化公式：
$\min _{f e \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$

其中，第1项是经验风险，第2项是正则化项， $\lambda$ ≥0为调整两者之间关系的系数
1范数：
$L(w)=\frac{1}{N} \sum_{i=1}^{N}\left(f\left(x_{i} ; w\right)-y_{i}\right)^{2}+\lambda\|w\|_{1}$
2范数：
$L(w)=\frac{1}{N} \sum_{i=1}^{N}\left(f\left(x_{i} ; w\right)-y_{i}\right)^{2}+\frac{\lambda}{2}\|w\|_{2}$

4.2说明为什么用L1-Norm代替L0-Norm

L0范数的最优化问题是一个NP,hard问题，而且理论上有证明，L1范数是L0范数的最优凸近似，因此通常使用L1范数来代替。

4.3学习为什么只对w/Θ做限制，不对b做限制

因为w通常是一个高维参数矢量，w几乎涵盖了所有参数，b只是众多参数的中的一个，这样加上b来做regularization的作用不大，也可以加，只是作用不大

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/967607