当前位置:   article > 正文

商品情感分析_cluecorpus 百度网盘

cluecorpus 百度网盘

介绍

比赛链接:
https://www.heywhale.com/home/competition/609cc718ca31cd0017835fdc
内含4个数据集:
商品信息.csv (product_information.csv)
商品类别列表.csv (product_cls.csv)
训练集.csv (product_train.csv)
测试集.csv (product_test.csv)

准备数据

训练集.csv(product_train.csv)

bert可以处理的语料

我们首先将product_train.csv处理成bert能处理的语料product_review_train_bert.csv。
代码如下:

import csv
with open('data/product/product_train.csv','rt',encoding='utf-8') as f1,\
        open('data/product/product_review_train_bert.csv','wt',encoding='utf-8') as f2:
    reader = csv.reader(f1)
    for num, i in enumerate(reader):
        if num == 0:
            continue
        str1 = list(i[4]+i[5])
        str1.insert(int(len(str1)/2),'\n')
        text = "".join(str1)
        print(text)
        writer = csv.writer(f2)
        writer.writerow([text])
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
product_train.csv:

数据ID,用户ID,商品ID,评论时间戳,评论标题,评论内容,评分
TRAIN_0,300212.0,PRODUCT_60357,1282579200,刚到!!!!!!!!,"刚刚收到,2天我晕,一般快递最快到我们这要3天呢,赞个!!!   包装台简单了,说明书看不懂。 瓶子半透明。   问了官方,说卓越也是他们的合作伙伴,正品放心。",4.0
TRAIN_1,213838.0,PRODUCT_354315,1305561600,很好的一本书,不过这本书没有赠送什么代金券。体现不出以前的正版图书送网站学习代金券的特点。,5.0
TRAIN_2,1045492.0,PRODUCT_192005,1357747200,二手手机,"很负责任的说一句,亚马逊给我发过来的手机绝对是二手的!!",1.0
TRAIN_3,587784.0,PRODUCT_1531,1305129600,送的光盘不行,"这本书内容很好,就是送的光盘不行。这次重新订购了一套,期望发过来的光盘能用",4.0
TRAIN_4,1244067.0,PRODUCT_324528,1285689600,很实用,"很实用的一本书,非常喜欢!",5.0
TRAIN_5,3361.0,PRODUCT_4163,1346256000,关于书籍的包装,"书籍本身没有问题,货物的包装实在不敢恭维。不知出于何种考虑,先前的纸盒包装现在换成了塑料袋,拍下的两本精装书拿到手居然卷了边,超级郁闷。以此种方式来降低成本,实在不足取。省下的只是仨瓜俩枣,失去的却是人们的信任。",4.0
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
product_review_train_bert.csv:
"刚到!!!!!!!!刚刚收到,2天我晕,一般快递最快到我们这要3天呢,赞个!!!   包装
台简单了,说明书看不懂。 瓶子半透明。   问了官方,说卓越也是他们的合作伙伴,正品放心。"

"很好的一本书不过这本书没有赠送什么代金券。体
现不出以前的正版图书送网站学习代金券的特点。"

"二手手机很负责任的说一句,亚马逊
给我发过来的手机绝对是二手的!!"

"送的光盘不行这本书内容很好,就是送的光盘不
行。这次重新订购了一套,期望发过来的光盘能用"

"很实用很实用的一
本书,非常喜欢!"
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
train.csv(训练)

然后将训练集.csv中70000条数据分为train.csv(50000条),dev.csv(10000条),test.csv(10000条)
注意: 标签要从0开始
部分代码:

with open('data/product/product_train.csv','rt',encoding='utf-8') as f1,\
        open('data/product/product_review_train_train.csv','wt',encoding='utf-8') as f2,\
        open('data/product/product_review_train_dev.csv','wt',encoding='utf-8') as f3,\
        open('data/product/product_review_train_test.csv','wt',encoding='utf-8')
  • 1
  • 2
  • 3
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/691886
推荐阅读
相关标签
  

闽ICP备14008679号