赞
踩
一、使用NLTK中的PlaintextCorpusReader 帮助下载入它们
PlaintextCorpusReader 初始化函数的第一个参数是你要加载的文件的路径,第二个参数可以是一个如['a.txt', 'test/b.txt']这样的 fileids链表,或者一个匹配所有fileids的模式 ,如:'[abc]\.txt'
假定你的文件在/usr/share/dict 目录下,匹配该路径下的'[abc]\.txt'文件
- from nltk.corpus import PlaintextCorpusReader
- corpus_root = '/usr/share/dict'#目标文件路径
- wordlists = PlaintextCorpusReader(corpus_root, r'[abc]\.txt')#匹配加载想要的txt文件
- wordlists.fileids()
二、 BracketParseCorpusReader 更适合已解析过的语料库
- from nltk.corpus import BracketParseCorpusReader
- corpus_root =r"F:\nltk_data\corpora\SogouC.reduced.20061127\SogouC.reduced\Reduced" # r"" 防止转义
- file_pattern = r".*/.*\.txt" #匹配corpus_root目录下的所有子目录下的txt文件
- ptb = BracketParseCorpusReader(corpus_root, file_pattern) #初始化读取器:语料库目录和要加载文件的格式,默认utf8格式的编码
- ptb.fileids() #至此,可以看到目录下的所有文件名,例如C000008/1001.txt,则成功了
- ptb.raw(“C000008/1001.txt”) # 如果C000008/1001.txt编码格式和ptb格式一致,则看到内容
把文本加载完了,你就可以查看文本的内容了,只有这样你才能接下来进行文本分词处理,这样比直接去读取文件内容来的更加方便,而且你也可以使用nltk里面带有的方法,这样效率更高,速度更快
参考原文链接:https://blog.csdn.net/shanyuelanhua/article/details/51212194
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。