当前位置:   article > 正文

机器学习-周志华】学习笔记-第十一章_机器学习 周志华第十一章

机器学习 周志华第十一章

记录第一遍没看懂的
记录觉得有用的
其他章节:
        第一章
        第三章
        第五章
        第六章
        第七章
        第八章
        第九章
        第十章
        十一章
        十二章
        十三章
        十四章
        十五章
        十六章

特征选择

        特征选择是一个重要的"数据预处理" 过程,其一可以大为减轻维数灾难问题,二是可以降低学习任务的难度。
        第一个环节是“子集搜索”,可以逐渐增加相关特征(“前向”搜索);可以从完整的特征集合开始,每次尝试去掉一个无关特征("后向"搜索 );还可将前向与后向搜索结合起来,每一轮逐渐增加选定相关特征(这些特征在后续轮中将确定不会被去除)、同时减少无关特(“双向” 搜索)。
        第二个环节是“子集评价”,通过公式计算信息增益
在这里插入图片描述
        过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关
        包裹式特征选择直接把最终将要使用的学习器的性能作为特征于集的评价准则,这样性能更好但计算开销也大。
        嵌入式选择是在学习器训练过程中自动地进行了特征选择。L1范数正则化公式为:
在这里插入图片描述
        使用L1范数的好处可以通过下面的图来理解:使用范数就是为了找到一个点使得w极小,公式中 ∑ i = 1 m ( y i − w T x i ) 2 \sum_{i=1}^m(y_i-w^Tx_i)^2 i=1m(yiwTxi)2其实是关于 w w w的平方项,也就是一个抛物面;也就是最终w得到的点是抛物面与菱形/圆圈的交点上,可以看出,用L1可能得到w2项为0的点,相当于起到降维的效果。
在这里插入图片描述
         L 1 L_1 L1问题求解,首先假设条件(11.9): f ( x ) f(x) f(x)和他旁边的点的梯度相差不是很大,也就是 f ( x ) f(x) f(x)不是太陡,没有突变点;也因此可以使用泰勒展开式。然而,由于正则项的存在,所以没有解析解,因此采用每次都朝梯度下降的方向走的方法。相当于把(11.13)当成一个标量式了,每次只求其中一个分量
在这里插入图片描述
        解(11.14)的具体过程如下:
x k + 1 i = a r g m x i n L 2 ( x i − z i ) 2 + λ ∣ x i ∣ 平方项展开: L 2 x 2 − L z x + L 2 z 2 + λ ∣ x ∣ x > 0 : L 2 x 2 + ( λ − L z ) x + L 2 z 2 ⇒ x ∗ = z L − λ L x < 0 : L 2 x 2 + ( − λ − L z ) x + L 2 z 2 ⇒ x ∗ = z L + λ L x_{k+1}^i=arg \underset{x} min \dfrac{L}{2}(x^i-z^i)^2+\lambda|x^i|\\ 平方项展开:\dfrac{L}{2}x^2-Lzx+ \dfrac{L}{2}z^2+\lambda|x|\\ x>0:\dfrac{L}{2}x^2+(\lambda-Lz)x+ \dfrac{L}{2}z^2 \rArr x^*=\dfrac{zL-\lambda}{L}\\ x<0:\dfrac{L}{2}x^2+(-\lambda-Lz)x+ \dfrac{L}{2}z^2 \rArr x^*=\dfrac{zL+\lambda}{L} xk+1i=argxmin2L(xizi)2+λxi平方项展开:2Lx2Lzx+2Lz2+λxx>0:2Lx2+(λLz)x+2Lz2x=LzLλx<0:2Lx2+(λLz)x+2Lz2x=LzL+λ

稀疏学习

        前面的情况都是,没有用的都是整列整列的,但实际情况时,没有用的都是分散在数据矩阵中。这样的样本的好处是:1.处理文本数据的性能较好,使大多数问题变得线性可分;2.存储高效。
        因此,本节的目的就是希望样本能够“恰当”的稀疏,让他在某些算法上有比较好的表现。那么首先需要先学习出一个“字典”,然后进行“稀疏编码”。
在这里插入图片描述
        采用用变量交替优化的策略来求解,首先固定 B B B,利用近端梯度下降法求解 α i \alpha_i αi;然后固定 α i \alpha_i αi,利用KSVD策略求解。
在这里插入图片描述
        奈奎斯特采样定理:令采样频率达到模拟信号最高频率的两倍,则采样后的数字信号就保留了模拟信号的全部信息;那么假定有长度为 x x x的离散信号 ,不妨假定我们以远小于奈奎斯特来样定理要求的采样率进行采样,得到长度为 n n n的采样后信号 y y y,即 y = Φ x y=\Phi x y=Φx,但由于这是一个欠定方程,因此难以求出数值解;所以假设 x = Ψ s x=\Psi s x=Ψs,那么 y = Φ Ψ s y=\Phi \Psi s y=ΦΨs;如果 s s s具有稀疏性,那么公式中 A = Φ Ψ A=\Phi \Psi A=ΦΨ可以类似于字典,能将信号转换为稀疏表示。
        压缩感知关注的是如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/449097
推荐阅读
相关标签
  

闽ICP备14008679号