赞
踩
从xml中提取的,文件格式为tsv,和csv差不多,可以转为其他格式
链接:https://pan.baidu.com/s/1lDiuvpbT5qPc_uJJs0cPUQ
提取码:t5i7
import xml.dom.minidom import csv import pandas as pd # 1. 创建文件对象 f = open('Nlpcc2013Train.tsv','a+',encoding='utf-8',newline='') # 2. 基于文件对象构建 csv写入对象 csv_writer = csv.writer(f) csv_writer.writerow(['标签','文本']) #打开xml文档 dom = xml.dom.minidom.parse('Nlpcc2013/微博情绪样例数据V5-13.xml') #得到文档元素对象 root = dom.documentElement wb=dom.getElementsByTagName('weibo') for i in range(len(wb)): wbi=wb[i] sens=wbi.getElementsByTagName('sentence') for j in range(len(sens)): senj=sens[j] if senj.firstChild is None: continue if senj.hasAttribute('emotion-1-type'): em=senj.getAttribute('emotion-1-type') else: em='none' text=senj.firstChild.data csv_writer.writerow([em,text]) f.close() 在这里插入代码片
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。