赞
踩
一、工作流程
1、将数据下载到本地,并保存为csv格式,数据包含两列:id和title。
命名为:input.csv,id可以理解为序号,作为主键标识title。
import pandas as pd
df = pd.read_csv('input.csv')
for job in df['title']:
job = job.strip()
print(job, file=open("job_title_input.txt", "a")) #save as txt file
ifn = r"job_title_input.txt"
ofn = r"job_title_output.txt"
将dataframe格式的文件保持为txt文件是方便后续的切词,因切词的时候不能一并将id传入。最终我们还需要按顺序把id与title对应起来,所以这边先将id和title按照df格式读取,再单独将title按行保存为txt。
2、切词
这里用到的是python的jieba包:
import jieba
# jieba.load_userdict('userdict.txt') #这里为了简化流程不再自行设置用户字典
# 创建停用词list
def stopwords
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。