当前位置:   article > 正文

NLTK简介及使用示例

nltk

参考文章:自然语言处理库——NLTK_满腹的小不甘-CSDN博客

NLP 自然语言处理的开发环境搭建_村雨遥-CSDN博客_nlp开发

nlp---Nltk 常用方法_飘过的春风-CSDN博客

NLTK 基础知识总结_村雨遥-CSDN博客_nltk

NLTK :: Natural Language Toolkit(官网)

NLTK :: Sample usage for stem

手动下载并安装nltk_data_justlpf的专栏-CSDN博客

NLTK_百度百科

GitHub - nltk/nltk_data: NLTK Data

目录

1.简介

NLTK能干啥?

 NLTK设计目标

NLTK中的语料库

文本语料库结构

基本语料库函数

条件频率分布

NLP的开发环境搭建主要分为以下几步:

NLTK模块及功能介绍:

 1. 分词

(1) 句子切分(断句)

(2)单词切分(分词)

2. 处理切词

(1)移除标点符号

(2)移除停用词

3. 词汇规范化(Lexicon Normalization)

(1)词形还原(lemmatization)

(2)词干提取(stem)

4. 词性标注

5. 获取近义词

6.其它示例:

6.1 词频提取

6.2 其它实例代码示例


1.简介

  • Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。
  • NLTK是一个开源的项目,包含:Python模块,数据集和教程,用于NLP的研究和开发。
  • NLTK由Steven Bird和Edward Loper在宾夕法尼亚大学计算机和信息科学系开发。
  • NLTK包括图形演示和示例数据。其提供的教程解释了工具包支持的语言处理任务背后的基本概念。

NLTK(www.nltk.org)是在处理预料库、分类文本、分析语言结构等多项操作中最长遇到的包。其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。


NLTK能干啥?

  • 搜索文本
    • 单词搜索:
    • 相似词搜索;
    • 相似关键词识别;
    • 词汇分布图;
    • 生成文本;
  • 计数词汇

 NLTK设计目标

  • 简易性;
  • 一致性;
  • 可扩展性;
  • 模块化;

NLTK中的语料库

  • 古腾堡语料库:gutenberg
  • 网络聊天语料库:webtextnps_chat
  • 布朗语料库:brown
  • 路透社语料库:reuters
  • 就职演说语料库:inaugural
  • 其他语料库;

文本语料库结构

  • isolated: 独立型;
  • categorized:分类型;
  • overlapping:重叠型;
  • temporal:暂时型;

基本语料库函数

条件频率分布

NLP的开发环境搭建主要分为以下几步:

  1. Python安装
    1. 参考:windows系统下搭建Python开发环境_justlpf的专栏-CSDN博客
  2. NLTK系统安装
    1.  自动下载nltk_data一般会失败, 手动下载并配置nltk_data, 参考:手动下载并安装nltk_data_justlpf的专栏-CSDN博客

NLTK模块及功能介绍:

 1. 分词

文本是由段落(Paragraph)构成的,段落是由句子(Sentence)构成的,句子是由单词构成的。切词是文本分析的第一步,它把文本段落分解为较小的实体(如单词或句子),每一个实体叫做一个Token,Token是构成句子(sentence )的单词、是段落(paragraph)的句子。NLTK能够实现句子切分和单词切分两种功能。

(1) 句子切分(断句)

把段落切分成句子:

  1. from nltk.tokenize import sent_tokenize
  2. text="""Hello Mr. Smith, how are you doing today? The weather is great, and
  3. city is awesome.The sky is pinkish-blue. You shouldn't eat cardboard"""
  4. tokenized_text=sent_tokenize(text)
  5. print(tokenized_text)
  6. '''
  7. 结果:
  8. ['Hello Mr. Smith, how are you doing today?',
  9. 'The weather is great, and city is awesome.The sky is pinkish-blue.',
  10. "You shouldn't eat cardboard"]
  11. '''

(2)单词切分(分词)

句子切分成单词:

  1. import nltk
  2. sent = "I am almost dead this time"
  3. token = nltk.word_tokenize(sent)
  4. # 结果:token['I','am','almost','dead','this','time']

2. 处理切词

对切词的处理,需要移除标点符号和移除停用词和词汇规范化。

(1)移除标点符号

       对每个切词调用该函数,移除字符串中的标点符号,string.punctuation包含了所有的标点符号,从切词中把这些标点符号替换为空格。

  1. import string
  2. """移除标点符号"""
  3. if __name__ == '__main__':
  4. # 方式一
  5. # s = 'abc.'
  6. text_list = "Hello Mr. Smith, how are you doing today? The weather is great, and city is awesome."
  7. text_list = text_list.translate(str.maketrans(string.punctuation, " " * len(string.punctuation))) # abc
  8. print("s: ", text_list)
  9. # 方式二
  10. english_punctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%']
  11. text_list = [word for word in text_list if word not in english_punctuations]
  12. print("text: ", text_list)

(2)移除停用词

       停用词(stopword)是文本中的噪音单词,没有任何意义,常用的英语停用词,例如:is, am, are, this, a, an, the。NLTK的语料库中有一个停用词,用户必须从切词列表中把停用词去掉。

  1. import nltk
  2. from nltk.corpus import stopwords
  3. # nltk.download('stopwords')
  4. # Downloading package stopwords to
  5. # C:\Users\Administrator\AppData\Roaming\nltk_data\corpora\stopwords.zip.
  6. # Unzipping the stopwords.zip
  7. """移除停用词"""
  8. stop_words = stopwords.words("english")
  9. if __name__ == '__main__':
  10. text = "Hello Mr. Smith, how are you doing today? The weather is great, and city is awesome."
  11. word_tokens = nltk.tokenize.word_tokenize(text.strip())
  12. filtered_word = [w for w in word_tokens if not w in stop_words]
  13. print("word_tokens: ", word_tokens)
  14. print("filtered_word: ", filtered_word)
  15. '''
  16. word_tokens:['Hello', 'Mr.', 'Smith', ',', 'how', 'are', 'you', 'doing', 'today', '?',
  17. 'The', 'weather', 'is', 'great', ',', 'and', 'city', 'is', 'awesome', '.']
  18. filtered_word:['Hello', 'Mr.', 'Smith', ',', 'today', '?', 'The', 'weather', 'great', ',', 'city', 'awesome', '.']
  19. '''

3. 词汇规范化(Lexicon Normalization)

词汇规范化是指把词的各种派生形式转换为词根,在NLTK中存在两种抽取词干的方法porter和wordnet。

(1)词形还原(lemmatization)

利用上下文语境和词性来确定相关单词的变化形式,根据词性来获取相关的词根,也叫lemma,结果是真实的单词
基于字典的映射。nltk中要求手动注明词性,否则可能会有问题。因此一般先要分词、词性标注,再词性还原。

  1. from nltk.stem import WordNetLemmatizer
  2. lemmatizer = WordNetLemmatizer()
  3. lemmatizer.lemmatize('leaves')
  4. # 输出:'leaf'

 (2) 词干提取(stem)

     从单词中删除词缀并返回词干,可能不是真正的单词

  1. # 基于Porter词干提取算法
  2. from nltk.stem.porter import PorterStemmer
  3. porter_stemmer = PorterStemmer()
  4. porter_stemmer.stem(‘maximum’)
  5. # 基于Lancaster 词干提取算法
  6. from nltk.stem.lancaster import LancasterStemmer
  7. lancaster_stemmer = LancasterStemmer()
  8. lancaster_stemmer.stem(‘maximum’)
  9. # 基于Snowball 词干提取算法
  10. from nltk.stem import SnowballStemmer
  11. snowball_stemmer = SnowballStemmer(“english”)
  12. snowball_stemmer.stem(‘maximum’)
  1. from nltk.stem.wordnet import WordNetLemmatizer # from nltk.stem import WordNetLemmatizer
  2. lem = WordNetLemmatizer() # 词形还原
  3. from nltk.stem.porter import PorterStemmer # from nltk.stem import PorterStemmer
  4. stem = PorterStemmer() # 词干提取
  5. word = "flying"
  6. print("Lemmatized Word:",lem.lemmatize(word,"v"))
  7. print("Stemmed Word:",stem.stem(word))
  8. '''
  9. Lemmatized Word: fly
  10. Stemmed Word: fli
  11. '''

4. 词性标注

      词性(POS)标记的主要目标是识别给定单词的语法组,POS标记查找句子内的关系,并为该单词分配相应的标签。

  1. sent = "Albert Einstein was born in Ulm, Germany in 1879."
  2. tokens = nltk.word_tokenize(sent)
  3. tags = nltk.pos_tag(tokens)
  4. '''
  5. [('Albert', 'NNP'), ('Einstein', 'NNP'), ('was', 'VBD'), ('born', 'VBN'),
  6. ('in', 'IN'), ('Ulm', 'NNP'), (',', ','), ('Germany', 'NNP'), ('in', 'IN'), ('1879', 'CD'), ('.', '.')]
  7. '''

5. 获取近义词

    查看一个单词的同义词集用synsets(); 它有一个参数pos,可以指定查找的词性。WordNet接口是面向语义的英语词典,类似于传统字典。它是NLTK语料库的一部分。

  1. import nltk
  2. nltk.download('wordnet') # Downloading package wordnet to C:\Users\Administrator\AppData\Roaming\nltk_data...Unzipping corpora\wordnet.zip.
  3. from nltk.corpus import wordnet
  4. word = wordnet.synsets('spectacular')
  5. print(word)
  6. # [Synset('spectacular.n.01'), Synset('dramatic.s.02'), Synset('spectacular.s.02'), Synset('outstanding.s.02')]
  7. print(word[0].definition())
  8. print(word[1].definition())
  9. print(word[2].definition())
  10. print(word[3].definition())
  11. '''
  12. a lavishly produced performance
  13. sensational in appearance or thrilling in effect
  14. characteristic of spectacles or drama
  15. having a quality that thrusts itself into attention
  16. '''

6.其它示例:

6.1 词频提取

把切分好的词表进行词频排序(按照出现次数排序):

  1. all_words = nltk.FreqDist(w.lower() for w in nltk.word_tokenize( "I'm foolish foolish man" ))
  2. print (all_words.keys())
  3. all_words.plot()

dict_keys(["'m", 'man', 'i', 'foolish']):

只考虑最高频率的两个词,并且绘制累积图:

all_words.plot( 2 , cumulative = True )

6.2 其它实例代码示例

  1. #!/usr/bin/env python
  2. # -*- coding: utf-8 -*-
  3. # @Time : 2018-9-28 22:21
  4. # @Author : Manu
  5. # @Site :
  6. # @File : python_base.py
  7. # @Software: PyCharm
  8. from __future__ import division
  9. import nltk
  10. import matplotlib
  11. from nltk.book import *
  12. from nltk.util import bigrams
  13. # 单词搜索
  14. print('单词搜索')
  15. text1.concordance('boy')
  16. text2.concordance('friends')
  17. # 相似词搜索
  18. print('相似词搜索')
  19. text3.similar('time')
  20. #共同上下文搜索
  21. print('共同上下文搜索')
  22. text2.common_contexts(['monstrous','very'])
  23. # 词汇分布表
  24. print('词汇分布表')
  25. text4.dispersion_plot(['citizens', 'American', 'freedom', 'duties'])
  26. # 词汇计数
  27. print('词汇计数')
  28. print(len(text5))
  29. sorted(set(text5))
  30. print(len(set(text5)))
  31. # 重复词密度
  32. print('重复词密度')
  33. print(len(text8) / len(set(text8)))
  34. # 关键词密度
  35. print('关键词密度')
  36. print(text9.count('girl'))
  37. print(text9.count('girl') * 100 / len(text9))
  38. # 频率分布
  39. fdist = FreqDist(text1)
  40. vocabulary = fdist.keys()
  41. for i in vocabulary:
  42. print(i)
  43. # 高频前20
  44. fdist.plot(20, cumulative = True)
  45. # 低频词
  46. print('低频词:')
  47. print(fdist.hapaxes())
  48. # 词语搭配
  49. print('词语搭配')
  50. words = list(bigrams(['louder', 'words', 'speak']))
  51. print(words)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/371827
推荐阅读
相关标签
  

闽ICP备14008679号