第四篇：Part of Speech Tagging 词性标注_claws算法词性标注

作者：Gausst松鼠会 | 2024-05-18 15:02:00

踩

claws算法词性标注

词性也就是单词类别，形态类别，句法类别

名词，动词，形容词等。

POS告诉了我们单词和他的邻居的一些信息，简单举例：

作者的归属权(也就是作者是谁)

简单举例，信息抽取：

原句	抽取
“巴西首都巴西利亚成立于 1960 年。”	首都（巴西、巴西利亚）成立（巴西利亚，1960 年）

中间涉及许多步骤，但首先需要知道名词（巴西利亚，首都）、形容词（巴西Brazilian）、动词（成立）和数字（1960）。

以英语为例

开放类 vs 封闭类：POS 类别对新词的接纳程度如何？

只有一些开放类：

名词
- 适当proper（澳大利亚Australia）与普遍common（袋熊wombat）
- 质量（大米rice）与数量（碗bowls）
动词
- 丰富的变化（go/goes/going/gone/went）
- 助动词（英语中的 be、have 和 do）
- 传递性（wait versus hit versus give）
  — 参数数量
形容词
- 可分级（快乐happy）与不可分级（计算computational）
副词
‣ 方式manner（缓慢slowly）
‣ 本地locative（此处here）
‣ 程度degree（真的really）
‣ 时间temporal（今天today）

封闭类

介词（in、on、with、for、of、over、...）
- on the table
Particles 小品词（与动词构成短语动词的副词或介词）
- brushed himself off
限定词
- 冠词articles (a, an, the)
- 指示词demonstratives（这个、那个、这些、那些）
- 量词quantifiers（每个、每个、一些、两个……）
代词
- Personal（我，我，她，...）
- Possessive（我的，我们的，...）
- 疑问Interrogative或 Wh（谁，什么，……）
连词
- 协调coordinating（和、或、但是）
- 从属subordinating（如果，虽然，那个，...）
情态动词 modal verbs
- 能力ability（可以，可以）
- 许可permission（可以，可以）
- 可能性possibility（可能、可能、可能、将）
- 必要性necessity（必须）
其他等。。。

因为存在很多词属于很多种类型，比如上面提到的content既可以做名词也可以做形容词；这会带来一定的歧义

标签集是POS 信息的紧凑表示:

主要英文标签集：

上表列了部分主要的标签在Penn Treebank中，通过这些标签还可以派生其他标签，在此就不罗列了。

使用该方法的原因：

分类：

基于规则的标记器
- 每个单词都会有对应的标签的列表，来源于词汇资源/语料库
- 通常也会包含其他的词汇信息，比如动词子类别(它的参数)
- 应用规则去缩减到单个标签。比如限定词后面不可能跟动词
- 大型系统会有1000条限制
基于统计的标记器
- 一元标记器：为每个词类型分配最常见的标签
  - 需要标记词的语料库
  - “模型”只是一个查找表
  - 但实际上相当不错，准确率约为 90%，并且正确解决约 75% 的歧义
  - 通常被视为更复杂方法的baseline
- 基于分类器的标记器
  - 使用标准的判别分类器（例如逻辑回归、神经网络），具有以下特点：
    - 目标词
    - 单词周围的上下文
    - 已经在句子中分类的标签
  - 最好的序列模型之一
    - 但可能会受到错误传播的影响：先前步骤的错误预测会影响下一步
- 隐马尔可夫模型 (HMM) 标记器
  - 一个基本的顺序（或结构化）模型
  - 像序列分类器一样，使用先前的标签和词汇
  - 和分类器不同，分类器会将将先前的标签证据和词汇证据视为彼此独立
    - 更少的稀疏性
    - 序列预测的快速算法，找到整个词序列的最佳标记

未知词

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/588784

第四篇：Part of Speech Tagging 词性标注_claws算法 词性标注