当前位置:   article > 正文

词性标注 parts-of-speech tagging ,POS tagging_parts of speech pos

parts of speech pos

词性 parts-of-speech POS
词性标注 parts-of-speech tagging ,POS tagging

默认标注器: 为每个标识符分配同样的标记

碰巧的是,一旦我们处理了几千词的英文文本之后,大多数新词都将是名词。

正则表达式标注器:基于匹配模式 分配标记给标识符

查找标注器:

换句话说,我们要先使用查找表,如果它不能指定一个标 记就使用默认标注器,这个过程叫做回退(5.5 节)

unigram 只考虑当前标志符,与上下文隔离

为每个词标注其先验的最可能的标记——意味着使用相同的标记标注一个词,如wind,不管上下文是the wind 还是 to wind.

n-gram标注器挑选再给定的上下文中最有可能的标记

使用一个已标注的训练语料库来确定对每个上下文哪个词性标记最有可能

组合标注器

在标注器初始化时指定回退标注器
在这里插入图片描述

Brill 基于转换的标注:

编制一个转换修正规则链表 >

—确定词的分类———

形态学线索:词的内部结构
句法线索:词出现的上下文语境

语义线索

新词 开放类
封闭类(只有有限的词属于该类)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/588846
推荐阅读
相关标签
  

闽ICP备14008679号