赞
踩
中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组。英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文分词难度高很多。
分词主要用于NLP 自然语言处理(Natural Language Processing),使用场景有:
Python的中文分词库有很多,常见的有:
通常前三个是比较经常见到的,主要在易用性/准确率/性能都还不错。个人常用的一直都是结巴分词(比较早接触),最近使用pkuseg,两者的使用后面详细讲。
“结巴”中文分词:做最好的Python中文分词组件
我们使用京东商场的美的电器评论来看看结巴分词的效果。如果你没有安装结巴分词库则需要在命令行下输入pip install jieba
,安装完之后即可开始分词之旅。
评论数据整理在文件meidi_jd.csv文件中,读取数据前先导入相关库。因为中文的文本或文件的编码方式不同编码选择gb18030
,有时候是utf-8
、gb2312
、gbk
自行测试。
# 导入相关库import pandas as pdimport jieba# 读取数据data = pd.read_csv('meidi_jd.csv', encoding='gb18030')# 查看数据data.head()
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。