赞
踩
一、中文数据预处理——分词
1、分词:中文分词模块——jieba库
默认精确模式,还有全模式、搜索引擎模式
2、分类
1)精确模式(默认):最精确的分开适合文本分析,并且不存在冗余词语,切分后词语总词数与文章总词数相同。。
2)全模式:所有可以合成的词语都扫描除了,速度快,但不解决歧义,有冗余,即在文本中从不同的角度分词,变成不同的词语。。
3)搜索引擎模式:精确模式上对长词切分,提高召回率,适用于搜索引擎分词。
(1)精确模式:jieba.lcut(字符串,cut_all=False),默认时为cut_all=False,表示为精确模型。
(2)全模式:ieba.lcut(字符串,cut_all=True),其中cut_all=True表示采用全模型进行分词。
(3)搜索引擎模式:在精确模式的基础上,对长词语再次切分。
3、词性标注含义
nt:机构团体
n:名词
p:介词
t:时间
v:动词
eng:英语词
x:字符串
4、实例
- # 引入库
- import jieba
- import jieba.posseg as psg
- from collections import Counter
-
- # 词组,代表一个句子,数值型数据,形式、内容
- # 要划分的句子
- s=u'北京大学毕业生于昨日来python公司应聘!'
- # 生成结果类型
- cut=jieba.cut(s)
- print('Output:')
- print(','.join(cut))
-
- # 列表类型
- # 精确分词
- cut1=jieba.lcut(s)
- print(cut1)
- # 全模式
- cut2=jieba.lcut(s,cut_all=True)
- print(cut2)
- # 搜索引擎模式
- cut3=jieba.lcut_for_search(s)
- print(cut3)
-
- # 按照词性标注
- words=psg.cut(s)
- # 输出
- for word,flag in words:
- print(word,flag)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。