赞
踩
经过几年的研究之后,下面是更新的教程
如何使用文本文件目录创建NLTK语料库?
主要思想是利用nltk.corpu.Reader包裹。中有一个文本文件目录的情况下英语,英国的,英国人的,最好使用PlaintextCorposReader.
如果您有一个如下所示的目录:newcorpus/
file1.txt
file2.txt ...
只需使用这些代码行,您就可以得到一个语料库:import osfrom nltk.corpus.reader.plaintext import PlaintextCorpusReadercorpusdir = 'newcorpus/' # Directory of corpus.newcorpus = PlaintextCorpusReader(corpusdir, '.*')
注:认为PlaintextCorpusReader将使用默认的nltk.tokenize.sent_tokenize()和nltk.tokenize.word_tokenize()要将你的课文分成句子和单词,并且这些功能是为英语而建立的,它可以不为所有语言工作。
下面是创建测试文本文件的完整代码,以及如何使用NLTK创建一个语料库,以及如何在不同级别访问该语料库:import osfrom nltk.corpus.reader.plaintext import PlaintextCorpusReader# Let's create a corpus with 2 texts in different textfile.txt1 = """This is a foo bar sentence.\nAnd this is the first txtfile i
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。