当前位置:   article > 正文

数据清洗【Python文本数据处理】_python 文本清洗

python 文本清洗

jieba

三种分词函数

  1. 精确模式
  2. 全模式
  3. 搜索引擎模式
  1. import jieba
  2. words = "多学一分钟,老婆会不同"
  3. print(jieba.lcut(words)) #默认-精确模式
  4. print(jieba.lcut(words,cut_all=True)) #全模式
  5. print(jieba.lcut_for_search(words)) #搜索引擎模式

运行结果: 

  1. ['多学', '一分钟', ',', '老婆', '会', '不同']
  2. ['多', '学', '一分', '一分钟', '分钟', ',', '老婆', '会', '不同']
  3. ['多学', '一分', '分钟', '一分钟', ',', '老婆', '会', '不同']

词性标注

词性标记说明
a形容词
ad副形词
ag形容词性语素,形容词性实词+副词。如:充足、不足、过于、欠佳等
b 连词
d副词
e叹词
f方位词,就是指方位的词
g语素
h前缀
i成语
j简略词性,如“副”
k后缀
l习用语
m数词、数量
n名词
nr人名
ns地名
nt机构团体名称
nz其他专有名词
p介词
q量词
r代词
s处所词,地名等
t时间词
u助词
v动词
vd副动词
vg动词性语素,动词性实词+副词。如:走开、跑快等
vi不及物动词
vn名动词
w标点符号
x非语素字,采用汉字的非语素字为标记
y语气词
z状态词,形容词作状语
  1. import jieba
  2. import jieba.posseg as pseg
  3. res = pseg.cut("山西的教育很差劲")
  4. for word,flag in res:
  5. print(word,":",flag)

运行结果:

  1. 山西 : ns
  2. 的 : uj
  3. 教育 : vn
  4. 很 : zg
  5. 差劲 : n

添加词库

  1. import jieba
  2. words = "鸡你太美,篮球太危险"
  3. print(jieba.lcut(words)) #默认-精确模式
  4. print(jieba.lcut(words,cut_all=True)) #全模式
  5. print(jieba.lcut_for_search(words)) #搜索引擎模式
  6. jieba.add_word('鸡你太美')
  7. print("=======添加新词到词库=======")
  8. print(jieba.lcut(words)) #默认-精确模式
  9. print(jieba.lcut(words,cut_all=True)) #全模式
  10. print(jieba.lcut_for_search(words)) #搜索引擎模式

 运行结果:

  1. ['鸡', '你', '太美', ',', '篮球', '太', '危险']
  2. ['鸡', '你', '太美', ',', '篮球', '太', '危险']
  3. ['鸡', '你', '太美', ',', '篮球', '太', '危险']
  4. =======添加新词到词库=======
  5. ['鸡你太美', ',', '篮球', '太', '危险']
  6. ['鸡你太美', '太美', ',', '篮球', '太', '危险']
  7. ['太美', '鸡你太美', ',', '篮球', '太', '危险']

统计词频

  1. import jieba
  2. from collections import Counter
  3. # 读取文本文件内容
  4. content = open("D:\Desktop\形式主义.txt", encoding='utf-8').read()
  5. # 进行分词 搜索引擎模式
  6. words = jieba.lcut_for_search(content)
  7. # 统计词频
  8. word_counts = Counter(words)
  9. # 输出词频结果
  10. print("词语\t\t\t频率")
  11. for word, count in word_counts.most_common(20):
  12. if len(word) > 1:
  13. print("{}\t\t\t{}".format(word, count))

运行结果: 

  1. 词语 频率
  2. 工作 31
  3. 就业 27
  4. 招生 24
  5. 强化 7
  6. 做好 6
  7. 推动 5
  8. 提升 5
  9. 不断 4
  10. 责任 4
  11. 学校 4
  12. 水平 4
  13. 发展 4
  14. 高质 4
  15. 质量 4

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/476161
推荐阅读
相关标签
  

闽ICP备14008679号