当前位置:   article > 正文

NLP词性标注笔记(一)

NLP词性标注笔记(一)

NLP词性标注笔记(一)

任务要求

1.利用HMM、MEMM、CRF、Perception训练词性标注任务
2.分别计算每个模型在中文数据集(CTB5,gsd_simple)和英文数据集(WSJ)上的准确性
3.写出实验分析报告(不同数据集下,不同模型下结果对比分析)

了解名词

作为刚入门的小白,对NLP中很多名词一无所知。所以在实操之前,我决定先肢解任务要求,对里面提到的每一个陌生名词都进行解释:

  1. HMM模型 :隐马尔可夫模型,一个统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数作进一步分析。
    两个假设
    输出观察值之间严格独立;
    状态的转移过程中当前状态只与前一状态有关(一阶马尔可夫模型)
    HMM模型假设前提使该模型适用于比较小的数据集。因为在大量真实语料中,观察序列更多是以一种多重的交互特征形式表现,观察元素之间存在相关性。在命名实体识别的任务,因为实体本身具有复杂结构,所以需要复杂的特征函数来涵盖所有特性。但是HMM的假设前提使它无法使用多于一个标记的特征。

    马尔科夫链之转移概率:从前一个状态进入当前状态的概率;
    隐含马尔可夫链之生成概率:每个状态产生相应输出符号的概率;
    转移概率和生成概率被称为隐含马尔可夫模型的参数

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/599217
推荐阅读
相关标签
  

闽ICP备14008679号