当前位置:   article > 正文

python自然语言处理-学习笔记(二)之nltk包常用的功能_import nltk nltk.corpus.gutenberg.fileids()运行后没有任何

import nltk nltk.corpus.gutenberg.fileids()运行后没有任何显示

1,语料库的获取

>>>import nltk
>>>nltk.corpus.gutenberg.fileids()

['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kj

v.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt'

, 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt', 'che

sterton-thursday.txt', 'edgeworth-parents.txt', 'melville-moby_dick.txt',

'milton-paradise.txt', 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt',

'shakespeare-macbeth.txt', 'whitman-leaves.txt']

emma = nltk.corpus.gutenberg.words('austen-emma.txt')

len(emma)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

获取的是一些txt文件,好像是一些作者写的文章,如果要用第一章的text1.concordance()这个函数的话,得经过处理

>>>emma = nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt'))

>>>emma.concordance('surprize')
  • 1
  • 2
  • 3

获取文本语料库

导入包

>>>from nltk.corpus import gutenberg
>>>guitenberg.fileids()
  • 1
  • 2

执行得出gutenberg得所有得文件,可以进行遍历得到每个文件然后进行词汇的获取

>>>gutenberg.words()         #获取每个文件包含多少个单词

['[', 'Emma', 'by', 'Jane', 'Austen', '1816', 
  • 1
  • 2
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/426113
推荐阅读
相关标签
  

闽ICP备14008679号