当前位置:   article > 正文

基于深度学习的自然语言处理——学习基础与线性模型_基于深度学习的自然语言处理 pdf

基于深度学习的自然语言处理 pdf

学习基础与线性模型

学习基础与线性模型

有监督学习与参数化函数
  • 有监督机器学习的精华:创造一种通过观察样本进而产生泛化的机制。
  • 假设类
    指的是包含函数的特定的函数簇。例如:具有 d i n d_{in} din个变量的决策树空间。
    也确定了学习器可以表示什么,不可以表示什么。
    • 常见假设类(一个高维线性函数)
      f ( x ) = x ⋅ W + b f\left(x\right)=x\cdot W+b f(x)=xW+b
      x ∈ R d i n , W ∈ R d i n × d o u t , b ∈ R d o u t x\in R{^{ {d_{in}}}},W\in R^{d_{in}\times d_{out}},b\in R^{d_{out}} xRdinWRdin×doutbRdout
      其中 x x x是函数输入, W W W b b b是参数,常被表示为 Θ \Theta Θ,学习的目标是确定参数的值。
  • 归纳偏置:为了把搜素限制在假设类中,引入了归纳偏置——一组关于期望结果形式的假设
训练集、测试集和验证集
  • 留一法(留一交叉验证):

    • 原理
      首先我们做一个假设:训练样本是一个有代表性的样本集合
      • 训练 k k k个函数 f 1 : k f_{1:k} f1:k,每次取出一个不同的输入样例,评估 f i f_i fi预测 x i x_i xi的能力。
      • 之后在整个训练集上训练一个函数 f f f
      • f f f在新输入上的准确率接近对取出元素得到正确预测结果的函数 f i f_i fi所占的比例。
    • 特点
      非常浪费时间,当 k k k小时才会使用
  • 留存法

    • 原理
      就是大家常用的对数据进行划分,一部分作为训练集一部分作为验证集。之后可以在整个数据集上重新训练一个模型,一般会产生更好的结果。但是当训练过程中某些参数对训练集敏感时,就需要注意了,可能产生次优解。
    • 特点
      • 划分数据前应打乱数据,保证样例分布的平衡
      • 随机划分不一定是一个好的选择
      • 应该保证训练集中包含更早的数据,验证集包含 较新的数据
  • 三路划分
    在上面的两路划分(存留法)中,根据验证集的准确率会导致对模型质量过于乐观的估计。

    • 原理
      将数据划分为三个部分:
      • 训练集
      • 验证集:在验证集上进行实验、调参、误差分析和模型选择等
      • 测试集:只进行一次简单运算对模型达到评估的目的
线性模型
  • 二分类
    二分类问题中,只有一个输出,所以 d o u t = 1 d_{out}=1 dout=1 w w w是一个向量, b b b是一个标量,
    f ( x ) = x ⋅ w + b f\left( x \right) = x \cdot w + b f(x)=xw+b
    值域为 [ − ∞ , + ∞ ] \left[ { - \infty , + \infty } \right] [,+],通常将 f ( x ) f\left( x \right) f(x)的输出通过sign函数进行映射。
  • 对数线性二分类
    当我们对决策的置信度或分类器分类的概率感兴趣时,一个便捷的方法就是将输出经过一个扁平函数将其映射到 [ 0 , 1 ] \left[ {0,1} \right] [0,1]
    • s i g m o i d sigmoid sigmoid函数
      σ ( x ) = 1 1 + e − x \sigma \left( x \right) = \frac{1}{ {1 + {e^{ - x}}}} σ(x)=1+ex1
      最终模型为:
      y ^ = σ ( f ( x ) ) = 1 1 + e − ( x ⋅ w + b ) \hat y = \sigma \left( {f\left( x \right)} \right) = \frac{1}{ {1 + {e^{ - \left( {x \cdot w + b} \right)}}}} y^=σ(f(x))=1+e(xw+b)1
  • 多分类
    当为多分类问题时,一种可行的方法是:
    • 为不同的分类考虑不同的权重 w 1 , w 2 , ⋯ &Th
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/667254
推荐阅读
相关标签
  

闽ICP备14008679号