赞
踩
目录
jieba(结巴分词)是一个开源的中文分词工具,用于将中文文本切分成词语或词汇单位。它是一个 Python 库,广泛用于自然语言处理(NLP)和文本分析领域。jieba 有以下主要特点和功能:
①精确模式(精确分词模式):
jieba.cut(text, cut_all=False)
②
全模式(全切分模式):
jieba.cut(text, cut_all=True)
③
搜索引擎模式:
jieba.cut_for_search(text)
函数 | 描述 |
jieba.cut | 可以按照指定的分词模式切分文本 |
jieba.load_userdict | 用于加载用户自定义的词典,以确保特定词汇被正确切分。 |
jieba.add_word | 手动添加一个新词汇到词典中,临时生效。 |
jieba.del_word | 从词典中删除一个词汇 |
jieba.enable_parallel | 启用并行分词,提高分词速度 |
jieba.sent_tokenize | 将文本拆分成句子 |
jieba.cut_for_search | 搜索引擎模式的分词函数,适用于搜索引擎相关任务 |
jieba.analyse.extract_tags | 用于关键词提取,提取文本中的关键词 |
- import jieba
- text = "今天是个好日子"
- cut = jieba.cut(text)
- string = ' '.join(cut)
- print(string)
结果展示:
可以看到,使用jieba分词器将一句完整的话分成数个单独的词语,并且输出了分词所用的时间。jieba还可以对一个字符串进行分词,并且使用任意符号进行连接。
- import jieba
-
- txt = open("red.txt", "r", encoding='utf-8').read()
- word = jieba.lcut(txt)
- count = {}
-
- for word in word:
- if len(word) == 1:
- continue
- else:
- count[word] = count.get(word, 0) + 1
-
- items = list(count.items())
- items.sort(key=lambda x: x[1], reverse=True)
- for i in range(10):
- word, count = items[i]
- print("{0:<3}{1:>3}".format(word, count))
统计结果展示:
相关参数解释:
txt = open("red.txt", "r", encoding='utf-8').read()
:打开名为 "red.txt" 的文本文件,并以UTF-8编码方式读取文件内容,将内容存储在变量 txt
中word = jieba.lcut(txt)
:使用jieba库的 lcut
函数对文本进行分词,将分词结果存储在变量 word
中,lcut
函数返回一个分词结果的列表items.sort(key=lambda x: x[1], reverse=True)
:对词频统计结果进行排序,按词频降序排列{0:<3}
和 {1:>3}:
分别表示词语和词频的占位符,<
和 >
分别表示左对齐和右对齐,数字 3 表示占用的字符宽度。这将输出前15个词汇和它们的词频,按照词频降序排列。for i in range(10)
:遍历排序后的词频统计列表的前10个元素。jieba库是处理中文文本的重要工具,具有强大的分词和关键词提取功能,学习它可以帮助我们更好地处理和分析中文文本数据,从而支持各种自然语言处理应用。
如有不足,请在下方评论区留言指正!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。