当前位置:   article > 正文

NLPcc2013-2014微博文本情感分类数据集_nlpcc2014微博情绪数据集,

nlpcc2014微博情绪数据集,

从xml中提取的,文件格式为tsv,和csv差不多,可以转为其他格式

链接:https://pan.baidu.com/s/1lDiuvpbT5qPc_uJJs0cPUQ
提取码:t5i7

import  xml.dom.minidom
import csv
import pandas as pd

# 1. 创建文件对象
f = open('Nlpcc2013Train.tsv','a+',encoding='utf-8',newline='')

# 2. 基于文件对象构建 csv写入对象
csv_writer = csv.writer(f)
csv_writer.writerow(['标签','文本'])

#打开xml文档
dom = xml.dom.minidom.parse('Nlpcc2013/微博情绪样例数据V5-13.xml')

#得到文档元素对象
root = dom.documentElement
wb=dom.getElementsByTagName('weibo')

for i in range(len(wb)):
    wbi=wb[i]
    sens=wbi.getElementsByTagName('sentence')
    for j in range(len(sens)):
        senj=sens[j]
        if senj.firstChild is None:
            continue
        if senj.hasAttribute('emotion-1-type'):
            em=senj.getAttribute('emotion-1-type')
        else:
            em='none'
        text=senj.firstChild.data
        csv_writer.writerow([em,text])
        
        
f.close()
在这里插入代码片
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/522072
推荐阅读
相关标签
  

闽ICP备14008679号