当前位置:   article > 正文

《使用Python进行自然语言处理》学习笔记三_cumulative=false python里的意义

cumulative=false python里的意义

第二章 获得文本语料和词汇资源

2.1 获取文本语料库

1 古腾堡语料库

Project Gutenberg的语料库包含

>>>import nltk

>>>from nltk.corpus import gutenberg

>>>gutenberg.fileids()

['austen-emma.txt','austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt','blake-poems.txt','bryant-stories.txt', 'burgess-busterbrown.txt','carroll-alice.txt','chesterton-ball.txt', 'chesterton-brown.txt', 'chesterton-thursday.txt','edgeworth-parents.txt', 'melville-moby_dick.txt','milton-paradise.txt','shakespeare-caesar.txt', 'shakespeare-hamlet.txt',

'shakespeare-macbeth.txt','whitman-leaves.txt’]

调用使用:

>>>emma = nltk.corpus.gutenberg.words('austen-emma.txt')

#num_chars 变量计数了空白字符

#row()对文件的内容不进行任何语言处理

#sents()函数把文本划分成句子,其中每一个句子是一个词链表

非正规文本语料库

>>> from nltk.corpus import webtext

>>> for fileid in webtext.fileids():

即时消息聊天会话语料库

>>> from nltk.corpus import nps_chat

>>> chatroom =nps_chat.posts('10-19-20s_706posts.xml')

>>> chatroom[12

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/585494
推荐阅读
相关标签
  

闽ICP备14008679号