当前位置:   article > 正文

自然语言处理学习笔记五(感知机分类)_自然语言处理二维分类

自然语言处理二维分类

 背景

       由于隐马尔可夫模型实现的基于序列标注的中文分词器,效果不理想。

       隐马尔可夫模型将语言取决与一个 {B,M,E,S}序列,这个模型假设太单纯,不符合语言规律,语言是包含很多特征的,而马尔可夫模型仅仅捕获两个特征,一个是前一个标签,一个是当前的字符。

       线性模型的提出,就是为了捕获到更多的特征,主要有两部分构成,一是用来提取特征的特征函数,二是相应的权重向量w。基于线性模型推导的训练算法就是感知机算法(感知机序列标注是基于分类的)。

 一、 分类问题

         分类是指预测样本所属类别的一类问题。有二分类、多分类,二分类是所有多分类的基础,二分类可以解决任意类别数的多分类问题,具体来说是两种方案:

      方案一(one-vs-one)、多轮二分类,每次区分两种类别Ci Cj,共进行(k,2)次二分类,理想情况是有且仅有一种类别Ck内次都胜出,预测结果为Ck。

      方案二(one-vs-rest)、多轮二分类,每次区分类别Ci 与非Ci,一共进行K次二分类。

      两种方案总结:有多少次分类就需要多少个二分类模型,one-vs-rest成本较低,但是正负样本数量不均匀,就会降低分类准确率。

二、线性分类模型

      1.  线性模型

       它是传统机器学习方法中最简单最常用的分类模型,用一条线性的直线或高维平面将数据一分为二,主要由特征函数 f 以及相应的权重向量 w 组成。

      用来提取每种特征的函数为特征函数,输出一般是二进制的1 或 0,表示是否具有该特征,也叫指示函数

     2.   特征向量与样本空间

         描述样本特征的向量叫做特征向量。

         构造特征向量的过程称为特征提取

         样本分布的空间叫样本空间

    3.   决策边界与分离超平面

          直线将平面分割成两部分,分布对应不同的分类特征,计算到测点落入相应的区域就可以预测它的特征,这样的区域叫做决策区域,它们的边界就叫决策边界

         二维空间中,决策边界是直线,则称产生该决策边界的模型为线性分类模型

         三维空间中,决策边界是平面,则称空间中的线性决策边界为分离超平面

三 、线性模型的训练算法 (感知机算法

       1.  感知机算法

       二元语法与隐马尔可夫模型的学习算法是一种计数式的训练算法,通过统计训练集上各事件的发生次数,然后利用极大似然估计归一化频次后得到相关概率,这些概率就是学习到的模型参数。

        感知机算法是一种迭代式的算法,在训练集上运行多个迭代,每次读入一个样本,执行预测,将预测结果与正确答案进行对比,计算误差,根据误差更新模型参数。至于迭代的次数一般是人工指定的一个参数,这个参数称作超参数

      2. 损失函数与随机梯度下降

         损失函数是用来衡量模型在训练集上的错误程度,模型优化的过程就是不断的减少损失函数。

       算法每次迭代随机选取部分样本,计算损失函数的梯度,让参数反向移动,称为随机梯度下降。相反,我们要得到一个最大化的目标函数,此时参数更新方向为梯度方向,让参数加上梯度,目标函数增大,称为随机梯度上升

      3. 投票感知机与平均感知机

         如果数据本身线性不可分,感知机算法是不会收敛的,每次迭代分离超平面会剧烈震荡,为了避免噪声点的影响,使得预测错误后直接修改模型,解决方案有:

       a.  创造更多特征,将样本映射到更高维空间,使其线性可分;

       b.  切换其他训练算法,比如支持向量机等;

       c.  对感知机算法打补丁,使用投票感知机与平均感知机;

        投票感知机预测时每个模型都给出各自的结果并乘以它的准确率加权平均值作为结果,它需要存储多个模型及加权,计算开销大。

       平均感知机是取多个模型的权重的平均,不需要保存多个模型,只需要保留平均后的模型。

四、基于感知机的人名性别分类

         监督学习流程: 1.  标注人名分类语料库。

                                   2.  利用感知机算法训练线性模型。

                                   3.   利用线性模型进行分类,评估准确率。

五、结构化预测

        结构化预测的结果是一个完整的结构;分类问题的预测结果是一个决策边界;因此,结构化预测难度更高。结构是由许多部分构成,最小的部分也是分类问题,但必须考虑结构整体的合理程度。合理程度通常是用模型给出的分值或概率衡量。

       特征裁剪与模型压缩:线性模型学习的特征稀疏,大部分是低频特征,权重的绝对值非常小,对预测结果的影响力非常小,将冗余特征去掉,提高效率。

     

       

   

                        

  

    

       

       

      

   

   

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/803504
推荐阅读
相关标签
  

闽ICP备14008679号