赞
踩
注:
Unimelb Comp90042 NLP笔记
相关tutorial代码链接
词性就是词的属性,可以把词按照功能进行划分
信息提取(Information Extraction)
一句话:“Brasilia, the Brazilian capital, was founded in 1960.”(巴西利亚,巴西的首都,在1960年建立。)
我们通过 关系(对象1,对象2) 来表示句子中词语的一些关系(这种形式表现关系的一般会在PDDL里面使用):
这是信息提取的步骤之一,但是最重要的还是第一步,我们需要每个词的词性,比如noun(Brasilia, capital),adjectives(Brazilian),verbs(founded),numbers(1960)
词性分Open和Closed两类。
Open指允许扩展的词。典型的开放词性有名词和动词,这些词性经常会通过合成词、派生、创造新词、借用等方式引入新单词。
名词(Nouns):
动词(Verbs):
形容词(Adjective):
副词(Adverbs):
总之,开放词性,大白话就是说这类词会变形,会变单复数会变时态等等。
Closed指通常情况下无法加入新条目进入其中的词性,并且这类词性通常含有较少数量的条目。在大多数语言中,典型的封闭词性有介词(前置介词和后置介词)、限定词、连词和代词等。
Prepositions(介词):
in,on,with,for等,主要作为词和词的连接,比如 on the table(在桌上)
Particles(虚词)
pass out(晕倒)/ pass away(去世),单词基本和介词一样,但是功能完全不一样,它们一般会和前面的单词搭配,并且组成不同意思。
定语/限定词(Determiners):
代词(Pronouns):
连接词(Conjunctions):
情态动词(Modal Verbs):
还有很多其他的:比如负面词(not),礼貌标记(politeness markers)
总之,封闭词性指那些不会再变化,已经固定的词语。
词性是通用(universal)的吗?
有部分是通用的,想开放词性中的动词和名词,就会出现在所有的语言中。
Time | flies | like | an | arrow |
---|---|---|---|---|
名词 noun | 动词 verb | 介词 preposition | 限定词 determiner | 名词 noun |
Fruit | flies | like | a | banana |
---|---|---|---|---|
名词 noun | 名词 noun | 动词 verb | 限定词 determiner | 名词 noun |
一些新闻标题的理解歧义:
中文举例:
喜欢上一个人 (狗头)
标签集是一种词性信息的紧凑(compact)表达,也就是表示词性的集合体。
主要的英语标签集:
目前至少有一个标签集是可以适用于所有主要语言的。
PT中主要的标签有:
缩写 | 意义 | 缩写 | 意义 |
---|---|---|---|
NN | noun | VB | verb |
JJ | adjective | RB | adverb |
DT | determiner | CD | cardinal number(基数) |
IN | preposition | PRP | personal pronoun |
MD | modal | CC | coordinating conjunction |
PR | particle | WH | wh-pronoun |
To | to |
这里把 to 单独拿出来了。
NN (noun singular, wombat)
VB (动词不定式 verb infinitive, eat)
JJ (形容词 adjective, nice)
RB (副词 adverb, fast)
PRP (人称代词 pronoun personal, I)
WP (Wh-pronoun, what):
最开始的词性标注就是体力活…
以 Penn Treebank 为例,对一下文本进行标注,红色为标签。
The/DT limits/NNS to/TO legal/JJ absurdity/NN stretched/VBD another/DT notch/NN this/DT week/NN when/WRB the/DT Supreme/NNP Court/NNP refused/VBD to/TO hear/VB an/DT appeal/VB from/IN a/DT case/NN that/WDT says/VBZ corporate/JJ defendants/NNS must/MD pay/VB damages/NNS even/RB after/IN proving/VBG that/IN they/PRP could/MD not/RB possibly/RB have/VB caused/VBN the/DT harm/NN ./.
标注器有两大类:
总而言之,基本思路:给一个打好标签的语料库,然后统计每个单词最常见的词性,制作成一个“查询表”(即unigram tagger)。当要打标签的数据进来后,直接去查找这个词即可。
注意: 与几乎所有基于统计的标注器一样,UnigramTagger的性能高度依赖于其训练集的质量。尤其是,如果训练集太小,它将无法可靠地估计每个单词最可能的标签。如果训练集与我们希望标记的文本显着不同,性能也会受到影响。
具体内容将在NLP05篇讲述。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。