赞
踩
1.利用HMM、MEMM、CRF、Perception训练词性标注任务
2.分别计算每个模型在中文数据集(CTB5,gsd_simple)和英文数据集(WSJ)上的准确性
3.写出实验分析报告(不同数据集下,不同模型下结果对比分析)
作为刚入门的小白,对NLP中很多名词一无所知。所以在实操之前,我决定先肢解任务要求,对里面提到的每一个陌生名词都进行解释:
HMM模型 :隐马尔可夫模型,一个统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数作进一步分析。
两个假设:
输出观察值之间严格独立;
状态的转移过程中当前状态只与前一状态有关(一阶马尔可夫模型)
HMM模型假设前提使该模型适用于比较小的数据集。因为在大量真实语料中,观察序列更多是以一种多重的交互特征形式表现,观察元素之间存在相关性。在命名实体识别的任务,因为实体本身具有复杂结构,所以需要复杂的特征函数来涵盖所有特性。但是HMM的假设前提使它无法使用多于一个标记的特征。
马尔科夫链之转移概率:从前一个状态进入当前状态的概率;
隐含马尔可夫链之生成概率:每个状态产生相应输出符号的概率;
转移概率和生成概率被称为隐含马尔可夫模型的参数,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。