赞
踩
词性也就是单词类别,形态类别,句法类别
名词,动词,形容词等。
POS告诉了我们单词和他的邻居的一些信息,简单举例:
作者的归属权(也就是作者是谁)
简单举例,信息抽取:
原句 | 抽取 |
“巴西首都巴西利亚成立于 1960 年。” | 首都(巴西、巴西利亚) 成立(巴西利亚,1960 年) |
中间涉及许多步骤,但首先需要知道名词(巴西利亚,首都)、形容词(巴西Brazilian)、动词(成立)和数字(1960)。
以英语为例
开放类 vs 封闭类:POS 类别对新词的接纳程度如何?
只有一些开放类:
封闭类
因为存在很多词属于很多种类型,比如上面提到的content既可以做名词也可以做形容词;这会带来一定的歧义
标签集是POS 信息的紧凑表示:
主要英文标签集:
NN | noun | VB | verb |
JJ | adjective | RB | adverb |
DT | determiner | CD | cardinal number |
IN | preposition | PRP | personal pronoun |
MD | modal | CC | corordinating conjuction |
RP | particle | WH | wh pronoun |
TO | to |
上表列了部分主要的标签在Penn Treebank中,通过这些标签还可以派生其他标签,在此就不罗列了。
使用该方法的原因:
分类:
未知词
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。