当前位置:   article > 正文

Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略_python 中文snownlp繁体

python 中文snownlp繁体

Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略

 

 

 

目录

SnowNLP的简介

SnowNLP的安装

SnowNLP的使用方法

关于训练


 

 

 

SnowNLP的简介

         snowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的。

snownlp主要可以进行中文分词(算法是Character-Based Generative Model)、词性标注、情感分析、文本分类(原理是朴素贝叶斯)、转换拼音、繁体转简体、提取文本关键词(原理TextRank)、提取摘要(原理TextRank)、分割句子、文本相似(原理BM25)。官网还有更多关于该库的介绍。

  • 中文分词(Character-Based Generative Model
  • 词性标注(TnT 3-gram 隐马)
  • 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)
  • 文本分类(Naive Bayes)
  • 转换成拼音(Trie树实现的最大匹配)
  • 繁体转简体(Trie树实现的最大匹配)
  • 提取文本关键词(TextRank算法)
  • 提取文本摘要(TextRank算法)
  • tf,idf
  • Tokenization(分割成句子)
  • 文本相似(BM25
  • 支持python3(感谢erning

github:SnowNLP: Simplified Chinese Text Processing
snownlp pypi

 

SnowNLP的安装

pip install snownlp

 

SnowNLP的使用方法

文章推荐

NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→情感分析→测试)

 

关于训练

现在提供训练的包括分词,词性标注,情感分析,而且都提供了我用来训练的原始文件 以分词为例 分词在snownlp/seg目录下

  1. from snownlp import seg
  2. seg.train('data.txt')
  3. seg.save('seg.marshal')
  4. # from snownlp import tag
  5. # tag.train('199801.txt')
  6. # tag.save('tag.marshal')
  7. # from snownlp import sentiment
  8. # sentiment.train('neg.txt', 'pos.txt')
  9. # sentiment.save('sentiment.marshal')

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/350973
推荐阅读
相关标签
  

闽ICP备14008679号