当前位置:   article > 正文

python-nlp-学到的一点东西_上下位词 工具

上下位词 工具

//2017/3/24

1、加载一些要用的文本:from nltk.book import *

就是从NLTK的book模块加载所有的文本数据。

2、词语索引视图:显示一个指定单词的所有的出现地方,并将它出现的上下文显示出来:

text1.concordance('monstrous'),其中text1就是nltk.book里的数据,而monstrous就是要查看的单词。

结果:***the monstrous pictures***

3、查找上下文相似的其它词:

在2中,通过输入单词monstrous查找到这个词出现的上下文信息,而上下文相似的其它词就是跟monstrous的上下文结构相似的词:

text1.similar('monstrous')。

4、两个或两个以上的词共同的上下文:

text2.common_contexts(['monstrous','very'])

结果:be_glad   am_glad   a_pretty   is_pretty   a_lucky(这些都是上下文)

意思就是text2中出现了  即be  monstrous glad,又出现了be very glad,即出现了am monstrous pretty又出现了am very glad等等等等。。。

5、使用离散图显示出指定的某个单词在整个文本中的位置:

text4.dispersion_plot(['citizens','democracy','freedom','duties','America'])

6、产生随机文本:

text1.generate():重复使用text1中的词汇,产生与其风格一样的随机文本。

7、获取文本的长度:

len(text3)

8、计算一个特定的词在文本中占据的百分比:

100*text3.count('smote')/len(text3)

//2017/3/29

1、NLTK中统计文本中的词频的函数:

fdist1 = FreqDist(text1),fdist1中包含总的词数(词数x频数),而vocabulary1=fdist1.keys()就是文本中所有的单词(包括符号),而找到某个词出现的频数:fdist1['单词']。

2、画出词汇的累积频率图:

fdist1.plot(50,cumulative=True),50就是fdist1中的前50个词,cumulative就是累积的意思。

3、与高频词相对应的低频词(只出现一次的词——hapaxes):

通过fdist1.hapaxes()查看这些词。

4、有时候可以研究那些指定长度的单词

5、在文本词汇中提取双连词:

bigrams(['more','is','said','than','done']):[('more','is'),('is','said'),('said','than'),('than','done')]

6、找到文本中频繁!!!出现的双连词:

text4.collocations()

7、还可以对文本中单词的长度进行统计。

8、NLTK频率分布类中定义的函数:


9、又见条件表达式:

[w for w in text if condition]

10、测试词汇的各种属性的函数:


11、自然语言处理中的一些语言理解技术:

a)词义消岐:算出特定上下文中的词被赋予的是哪个意思。

b)指代消解:检测主语和动词的宾语。

//2017/3/30

c)自动生成语言:在自动问答中,一台机器要能够回答用户关于特定文本集的问题。在机器翻译中,机器要能够把文本翻译成另一种语言文字,并准确传达原文的意思。

1、NLTK古腾堡项目语料库阅读器的一些访问方法:

gutenberg.raw()、gutenberg.words()、gutenberg.sents()

2、NLTK网络文本小集合语料库:

from nltk.corpus import webtext

3、即时消息聊天会话语料库:

from nltk.corpus import nps_chat

4、布朗语料库:

from nltk.corpus import brown

brown.categories(),nltk提供了带条件的频率分布函数:nltk.conditionalFreqDist()

5、路透社语料库:

from nltk.corpus import reuters

6、就职演说语料库:

from nltk.corpus import inaugural

//2017/4/1

1、文本语料库的常见结构:


2、NLTK中定义的基本语料库函数:


3、条件概率分布:

使用NLTK的ConditionalFreqDist实现:


4、检查条件概率分布:

cfd=nltk.ConditionalFreqDist(genre_word);  cfd.conditions():['news','romance'],还可以cfd['news']、cfd['romance']

5、对plot和tabulate()的绘制限制:

a)conditions=parameter来指定哪些条件显示;

b)使用samples=parameter来限制要显示的样本。

其中tabulate的绘制样式:


5、LTK 中的条件频率分布: 定义、访问和可视化一个计数的条件频率分布的常用方法和习惯用法:


6、词典术语:


7、查找两个voca_set中不同的单词:

differents = voca_set1.difference(voca_set2)

//2017/4/5

1、发音的词典:

美国英语的CMU发音词典&

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/242509
推荐阅读
相关标签
  

闽ICP备14008679号