当前位置:   article > 正文

python 中文文本分析_中文文本分析python

中文文本分析python

中文文本分析

Mac 安装pip 和 jieba

curl https://bootstrap.pypa.io/get-pip.py | python3
  • 1
你可以接着输入 

pip --version
看到pip的版本
  • 1
  • 2
  • 3
  • 4
pip install jieba
  • 1

文本分析

import jieba
import jieba.posseg as psg  # 词性标注入口


s = "我爱北京天安门"

for x in jieba.cut(s):
    print(x)

print(jieba.lcut(s, cut_all=True))  # 全模式

s = "李明硕士毕业于中国科学院计算所"
result = jieba.lcut_for_search(s)   # 搜索引擎  在精确模式基础上 再对长词切分
print(result)

test_sent = "李元帅是计科系主任也是云计算方面的专家"
words = jieba.cut(test_sent)
print("/".join(words))

words = jieba.cut(test_sent)
jieba.add_word("云计算")   # 添加一个词 不让 云/计算  而是 云计算
print("/".join(words))


jieba.load_userdict("words.txt")   # 加载自定义词库《字典》
words = jieba.cut(test_sent)
print("/".join(words))


test = "我和同学一起去北京故宫玩"
seg = psg.lcut(test)  # 词性标注
print(seg)
for els in seg:
    if els.flag == 'ns':
        print(els, end=" ")
print()

lst = [x.word for x in seg if x.flag == 'ns']  # 筛选
print(lst)


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41

结果

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/s0/zmlxbj21347470whgkgz35p00000gn/T/jieba.cache
我
爱
北京
天安门
['我', '爱', '北京', '天安', '天安门']
['李明', '硕士', '毕业', '于', '中国', '科学', '学院', '科学院', '中国科学院', '计算', '计算所']
李/元帅/是/计科/系主任/也/是/云/计算/方面/的/专家
李/元帅/是/计科/系主任/也/是/云计算/方面/的/专家
李元帅/是/计科系主任/也/是/云计算/方面/的/专家
[pair('我', 'r'), pair('和', 'c'), pair('同学', 'n'), pair('一起', 'm'), pair('去', 'v'), pair('北京故宫', 'ns'), pair('玩', 'v')]
北京故宫/ns 
['北京故宫']
Loading model cost 0.736 seconds.
Prefix dict has been built successfully.

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17

analysis

from jieba import analyse

text = '''最近在学习python学到jieba库的操作,本想在电脑上练练手发现还得安装,好麻烦。在网上找了半天怎么安装jieba库,没有找到看得懂的安装教程。。。可能是我太小白了。。。

就像下面这张图说的,啥全自动半自动啊。。看不懂,当然我也是有点基础的,全自动安装里提到里pip,书里也提到过啊,是第三方库安装工具,那就先安装pip吧。

'''

keywords = analyse.extract_tags(text, topK=10, withWeight=True)
print(keywords)
for keyword in keywords:
    print("{:<5} weight:{:4.2f}".format(keyword[0], keyword[1]))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

结果

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/s0/zmlxbj21347470whgkgz35p00000gn/T/jieba.cache
Loading model cost 0.656 seconds.
Prefix dict has been built successfully.
[('安装', 0.9139764647549999), ('jieba', 0.5433985228590908), ('pip', 0.5433985228590908), ('全自动', 0.4344032831872727), ('提到', 0.3008143851077273), ('练练手', 0.2844178020659091), ('python', 0.2716992614295454), ('看得懂', 0.2594493409590909), ('书里', 0.2427682233431818), ('图说', 0.23385817589318184)]
安装    weight:0.91
jieba weight:0.54
pip   weight:0.54
全自动   weight:0.43
提到    weight:0.30
练练手   weight:0.28
python weight:0.27
看得懂   weight:0.26
书里    weight:0.24
图说    weight:0.23

Process finished with exit code 0
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17

wordcloud(词云)

networks

网络分析算法

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/376268
推荐阅读
相关标签
  

闽ICP备14008679号