当前位置:   article > 正文

Python NLP自然语言处理 nltk载入自己语料库的方法以及文本分词处理_nltk plaintextreader

nltk plaintextreader

一、使用NLTK中的PlaintextCorpusReader 帮助下载入它们

PlaintextCorpusReader 初始化函数的第一个参数是你要加载的文件的路径,第二个参数可以是一个如['a.txt', 'test/b.txt']这样的 fileids链表,或者一个匹配所有fileids的模式 ,如:'[abc]\.txt'

假定你的文件在/usr/share/dict 目录下,匹配该路径下的'[abc]\.txt'文件

  1. from nltk.corpus import PlaintextCorpusReader
  2. corpus_root = '/usr/share/dict'#目标文件路径
  3. wordlists = PlaintextCorpusReader(corpus_root, r'[abc]\.txt')#匹配加载想要的txt文件
  4. wordlists.fileids()

二、 BracketParseCorpusReader 更适合已解析过的语料库

  1. from nltk.corpus import BracketParseCorpusReader
  2. corpus_root =r"F:\nltk_data\corpora\SogouC.reduced.20061127\SogouC.reduced\Reduced"  # r"" 防止转义
  3. file_pattern = r".*/.*\.txt"    #匹配corpus_root目录下的所有子目录下的txt文件
  4. ptb = BracketParseCorpusReader(corpus_root, file_pattern)   #初始化读取器:语料库目录和要加载文件的格式,默认utf8格式的编码
  5. ptb.fileids()   #至此,可以看到目录下的所有文件名,例如C000008/1001.txt,则成功了
  6. ptb.raw(“C000008/1001.txt”) # 如果C000008/1001.txt编码格式和ptb格式一致,则看到内容

把文本加载完了,你就可以查看文本的内容了,只有这样你才能接下来进行文本分词处理,这样比直接去读取文件内容来的更加方便,而且你也可以使用nltk里面带有的方法,这样效率更高,速度更快

参考原文链接:https://blog.csdn.net/shanyuelanhua/article/details/51212194

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/368313
推荐阅读
相关标签
  

闽ICP备14008679号