当前位置:   article > 正文

基于Python的中文文本相似分析_python中文文本分析

python中文文本分析

一、工作流程
1、将数据下载到本地,并保存为csv格式,数据包含两列:id和title。
命名为:input.csv,id可以理解为序号,作为主键标识title。

import pandas as pd

df = pd.read_csv('input.csv')

for job in df['title']:
    job = job.strip()
    print(job, file=open("job_title_input.txt", "a")) #save as txt file

ifn = r"job_title_input.txt" 
ofn = r"job_title_output.txt"
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

将dataframe格式的文件保持为txt文件是方便后续的切词,因切词的时候不能一并将id传入。最终我们还需要按顺序把id与title对应起来,所以这边先将id和title按照df格式读取,再单独将title按行保存为txt。

在这里插入图片描述

2、切词
这里用到的是python的jieba包:

import jieba
# jieba.load_userdict('userdict.txt') #这里为了简化流程不再自行设置用户字典

# 创建停用词list
def stopwords
  • 1
  • 2
  • 3
  • 4
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/376283
推荐阅读
相关标签
  

闽ICP备14008679号