赞
踩
词性 parts-of-speech POS
词性标注 parts-of-speech tagging ,POS tagging
默认标注器: 为每个标识符分配同样的标记
碰巧的是,一旦我们处理了几千词的英文文本之后,大多数新词都将是名词。
正则表达式标注器:基于匹配模式 分配标记给标识符
查找标注器:
换句话说,我们要先使用查找表,如果它不能指定一个标 记就使用默认标注器,这个过程叫做回退(5.5 节)
unigram 只考虑当前标志符,与上下文隔离
为每个词标注其先验的最可能的标记——意味着使用相同的标记标注一个词,如wind,不管上下文是the wind 还是 to wind.
n-gram标注器挑选再给定的上下文中最有可能的标记
使用一个已标注的训练语料库来确定对每个上下文哪个词性标记最有可能
组合标注器

在标注器初始化时指定回退标注器
Brill 基于转换的标注:
编制一个转换修正规则链表 >
—确定词的分类———
形态学线索:词的内部结构
句法线索:词出现的上下文语境
语义线索
新词 开放类
封闭类(只有有限的词属于该类)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。