赞
踩
1 、导入语料库的方法
1)一步到位导入语料库 如:导入gutenberg的语料库
nltk.corpus.gutenberg.fileids()
2)为避免1)中的过场语句,可以分开导入,如下:
from nltk.corpus import gutenberg
读取文件:gutenberg.fileids()
读取语料库中的单词:gutenberg.words()
注意,这里读取语料库的词或者是文件名也好,最终返回的结果是列表的形式,如果想要使用之前我的博客 自然语言处理(1)中针对文本的相关函数呢,这里是不可以直接使用的,需要用函数nltk.Text()将读取的单词转换成文本。如下:
import nltk
from nltk.corpus import gutenberg
gutenberg.fil
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。