当前位置:   article > 正文

情感分析常见数据集以及任务进展_sentihood数据集

sentihood数据集

情感分析

原文:https://github.com/sebastianruder/NLP-progress/blob/master/english/sentiment_analysis.md

IMDb

IMDb数据集是一个二分类的情感分析数据集,包括了来自Internet Movie Database(IMDb)的50000条电影评论,分别标注为正面和负面两类情感。数据集包含偶数个正面和负面评论。评论打分满分为10分,分数<=4归为负面评论,分数>=7归为正面评论。每部电影的评论不得超过30条。基于准确性评估模型
在这里插入图片描述

SST:SST-5,SST-2

Stanford Sentiment Treebank在电影评论中的11,855个句子的语法分析树中包含215,154个带有细粒度情感标签的短语。 根据准确率对模型进行细粒度(五向)或二进制分类。
在这里插入图片描述
在这里插入图片描述

Yelp

Yelp评论数据集包含500,000个Yelp评论。数据集既有二分类也有细粒度(五类)的版本,根据误差error评价模型

在这里插入图片描述

SemEval-2017 Task4

International Workshop on Semantic Evaluation是一个国际语义研讨会,每年都会发布自然语言处理领域的相关任务,最新关于情感分析的任务如下:
SemEval-2017任务4包含五个子任务,每个子任务都提供阿拉伯语和英语:

  1. 子任务A:给定一条推文,确定它表示正面,负面还是中立情绪。
  2. 子任务B:给定一条推文和一个主题,对传达给该主题的情绪进行分类:积极与消极
  3. 子任务C:给定一条推文和一个主题,以5分制对推文中对该主题表达的情感进行分类:强正,弱,中性,弱和强。
  4. 子任务D:给定关于主题的一组推文,估计推文在POSITIVE和NEGATIVE类中的分布。
  5. 子任务E:给定关于主题的一组推文,估计推文在以下五个类中的分布:强正,弱正,中性,弱正和强负。
    在这里插入图片描述

方面级情感分析

Sentihood

Sentihood是用于基于方面的目标情感分析targeted aspect-based sentiment analysis (TABSA)的数据集,旨在识别针对特定方面的细粒度极性。 数据集包含5,215个句子,其中3,862个包含单个目标,其余多个目标。
Dataset mirror: https://github.com/uclmr/jack/tree/master/data/sentihood

在这里插入图片描述

SemEval-2014 Task 4

SemEval-2014任务4包含两个特定领域(笔记本电脑和餐厅)的数据集,由超过6K的句子以及细粒度的方面级人类注释组成。
该任务包含以下子任务:

  1. 任务A:方面提取
  2. 任务B:方面极性分类
  3. 任务C:方面类别探测
  4. 任务D:方面类别极性分类

Preprocessed dataset: https://github.com/songyouwei/ABSA-PyTorch/tree/master/datasets/semeval14
https://github.com/howardhsu/BERT-for-RRC-ABSA (with both subtask 1 and subtask 2)

在这里插入图片描述
在这里插入图片描述

Sentiment classification with user and product information 带有用户和产品信息的情感分类

这是关于情感分类的相同任务,其中给定的文本是评论,但我们还额外得到(a)编写文本的用户,以及(b)为其编写文本的产品。 Tang等人介绍了三种广泛使用的数据集。 (2015):IMDB,Yelp 2013和Yelp2014。评估是同时使用准确性和RMSE进行的,但为简洁起见,我们仅在此处提供准确性。 请查看有关RMSE值的文件。

在这里插入图片描述

Subjectivity analysis

与情感分析相关的任务是主观性分析,其目标是将观点标记为主观或客观。
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/345940
推荐阅读
相关标签
  

闽ICP备14008679号