赞
踩
本章主要介绍了:
在英语中,从另一个角度可将词性分为两大类:封闭类、开放类
要想做词性标注肯定得有一个标注好的词库作为参考,一个标注集的好坏直接影响文本最终的词性标注好坏。下面列出几个常用的标注集:
在进行词性标注之前得先进行分词处理,去掉符号。
标注算法输入:词序列、标注集。
标注算法输出:每一个单词后对应的最佳词性标注
但是由于词语在不同的上下文环境中,其词性是不同的,所以得进行消歧处理。而这也是词性标注算法要解决的最大问题,下面就引出这三个词性标注算法。
现在基于规则的词性标注普遍上都是采用“语法限制”的方法来进行词性选择——EngCG Tagger。它通过两个阶段来实现:
我们通过上面的步骤可发现,这里存在一个问题,就是上下文的语法规则要怎么来确定,早期都是通过相关领域的语言学专家进行规则的制定,然而随着语料库规模的逐步增大,以人工提取规则的方式显然是不现实的,于是在这基础之上又提出了基于规则转换的词性标注算法(就是基于机器学习的规则自动提取方法)。
其具体处理过程如下图所示(图像来源 https://www.jianshu.com/p/cceb592ceda7):
隐马尔可夫模型是一种时序概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由序列中的各个状态生成一个观测结果。这样一个产生观测随机序列的过程即为马尔可夫链。隐藏的马尔可夫链随机生成的状态的序列,称为状态序列(state sequence);每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列(observation sequence)。序列的每一个位置又可以看作是一个时刻。
形式化表示如下HMM(Q,V,A,B,π):
其中π、A决定了下一时刻的隐藏状态,B决定了该时刻该隐藏状态产生的观测状态。
我们从上面的表述可看出,为了简化模型的复杂度,HMM模型做了两个假设:
使用HMM模型时我们的问题一般有这两个特征:
由此,根据HMM模型,我们可引出如下3个方面的问题:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。