赞
踩
import jieba
word_str = "好好学习,天天向上。"
words1 = jieba.lcut(word_str) # 精简模式,返回一个列表类型的结果
words2 = jieba.lcut(word_str, cut_all=True) # 使用 'cut_all=True' 指定全模式
words3 = jieba.lcut_for_search(word_str) # 搜索引擎模式
需求:使用 jieba 分词对一个文本进行分词,统计次数出现最多的词语
import jieba
txt = open("***.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt) # 使用精确模式对文本进行分词
counts = {} # 通过键值对的形式存储词语及其出现的次数
for word in words:
if len(word) == 1: # 单个词语不计算在内
continue
else:
counts[word] = counts.get(word, 0) + 1 # 遍历所有词语,每出现一次其对应的值加 1
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序
for i in range(3):
word, count = items[i]
print("{0:<5}{1:>5}".format(word, count))
# userdict.text文件
云计算 5
李小福 2 nr
import jieba
jieba.load_userdict("userdict.txt") # 加载字典
jieba.add_word('八一双鹿') # 加载单词
demo = '李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿'
words = jieba.cut(demo)
print('/'.join(words))
使用add_word 和 del_word 可以动态修改词典。
import jieba.analyse
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径
jieba.analyse.set_idf_path(file_name) # file_name为自定义语料库的路径
关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径
jieba.analyse.set_stop_words(file_name) # file_name为自定义语料库的路径
jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
直接使用,接口相同,注意默认过滤词性。
jieba.analyse.TextRank()
新建自定义 TextRank 实例
原理: 将目标文件按行分隔后,把各行文本分配到多个Python进程,然后归并结果,从而获得分词速度提升,基于 Python 自带的 multiprocessing 模块
jieba.enable_parallel(4) 开启并行分词模式,参数为并行进程数
jieba.disable_parallel() 关闭并行分词模式
注意: 并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。
import time
import jieba
jieba.enable_parallel(1) # 创建1个线程
content = open('./1.txt',"rb").read()
t1 = time.time()
words = "/ ".join(jieba.cut(content))
t2 = time.time()
log_f = open("1.log","wb")
log_f.write(words.encode('utf-8'))
print('speed %s bytes/second' % (len(content)/t2-t1))
>>> import jieba.posseg as pseg
>>> words = pseg.cut("我爱北京天安门")
>>> for word, flag in words:
... print('%s %s' % (word, flag))
...
我 r
爱 v
北京 ns
天安门 ns
import jieba
test_sent = u"永和服装饰品有限公司"
result = jieba.tokenize(test_sent)
for tk in result:
print(tk)
('永和', 0, 2)
('服装', 2, 4)
('饰品', 4, 6)
('有限公司', 6, 10)
符号 | 词性 |
---|---|
n | 名词 |
nr | 人名 |
nr1 | 汉语姓氏 |
nr2 | 汉语名字 |
nrj | 日语人名 |
nrf | 音译人名 |
ns | 地名 |
nsf | 音译地名 |
nt | 机构团体名 |
nz | 其它专名 |
nl | 名词性惯用语 |
ng | 名词性语素 |
符号 | 词性 |
---|---|
t | 时间词 |
tg | 时间词性语素 |
符号 | 词性 |
---|---|
s | 处所词 |
符号 | 词性 |
---|---|
f | 方位词 |
符号 | 词性 |
---|---|
v | 动词 |
vd | 副动词 |
vn | 名动词 |
vshi | 动词“是” |
vyou | 动词“有” |
vf | 趋向动词 |
vx | 形式动词 |
vi | 不及物动词(内动词) |
vl | 动词性惯用语 |
vg | 动词性语素 |
符号 | 词性 |
---|---|
a | 形容词 |
ad | 副形词 |
an | 名形词 |
ag | 形容词性语素 |
al | 形容词性惯用语 |
符号 | 词性 |
---|---|
b | 区别词 |
bl | 区别词性惯用语 |
符号 | 词性 |
---|---|
z | 状态词 |
符号 | 词性 |
---|---|
r | 代词 |
rr | 人称代词 |
rz | 指示代词 |
rzt | 时间指示代词 |
rzs | 处所指示代词 |
rzv | 谓词性指示代词 |
ry | 疑问代词 |
ryt | 时间疑问代词 |
rys | 处所疑问代词 |
ryv | 谓词性疑问代词 |
rg | 代词性语素 |
符号 | 词性 |
---|---|
m | 数词 |
mq | 数量词 |
符号 | 词性 |
---|---|
q | 量词 |
qv | 动量词 |
qt | 时量词 |
符号 | 词性 |
---|---|
d | 副词 |
符号 | 词性 |
---|---|
p | 介词 |
pba | 介词“把” |
pbei | 介词“被” |
符号 | 词性 |
---|---|
c | 连词 |
cc | 并列连词 |
符号 | 词性 |
---|---|
u | 助词 |
uzhe | 着 |
ule | 了 喽 |
uguo | 过 |
ude1 | 的 底 |
ude2 | 地 |
ude3 | 得 |
usuo | 所 |
udeng | 等 等等 云云 |
uyy | 一样 一般 似的 般 |
udh | 的话 |
uls | 来讲 来说 而言 说来 |
uzhi | 之 |
ulian | 连 (“连小学生都会”) |
符号 | 词性 |
---|---|
e | 叹词 |
符号 | 词性 |
---|---|
y | 语气词(delete yg) |
符号 | 词性 |
---|---|
o | 拟声词 |
符号 | 词性 |
---|---|
h | 前缀 |
符号 | 词性 |
---|---|
k | 后缀 |
符号 | 词性 |
---|---|
x | 字符串 |
xe | Email字符串 |
xs | 微博会话分隔符 |
xm | 表情符合 |
xu | 网址URL |
符号 | 词性 |
---|---|
w | 标点符号 |
wkz | 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { < |
wky | 右括号,全角:) 〕 ] } 》 】〗 〉 半角: ) ] { > |
wyz | 左引号,全角:“ ‘ 『 |
wyy | 右引号,全角:” ’ 』 |
wj | 句号,全角:。 |
ww | 问号,全角:? 半角:? |
wt | 叹号,全角:! 半角:! |
wd | 逗号,全角:, 半角:, |
wf | 分号,全角:; 半角: ; |
wn | 顿号,全角:、 |
wm | 冒号,全角:: 半角: : |
ws | 省略号,全角:…… … |
wp | 破折号,全角:―― -- ――- 半角:— ---- |
wb | 百分号千分号,全角:% ‰ 半角:% |
wh | 单位符号,全角:¥ $ £ ° ℃ 半角:$ |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。