赞
踩
原文:https://github.com/sebastianruder/NLP-progress/blob/master/english/sentiment_analysis.md
IMDb数据集是一个二分类的情感分析数据集,包括了来自Internet Movie Database(IMDb)的50000条电影评论,分别标注为正面和负面两类情感。数据集包含偶数个正面和负面评论。评论打分满分为10分,分数<=4归为负面评论,分数>=7归为正面评论。每部电影的评论不得超过30条。基于准确性评估模型
Stanford Sentiment Treebank在电影评论中的11,855个句子的语法分析树中包含215,154个带有细粒度情感标签的短语。 根据准确率对模型进行细粒度(五向)或二进制分类。
Yelp评论数据集包含500,000个Yelp评论。数据集既有二分类也有细粒度(五类)的版本,根据误差error评价模型
International Workshop on Semantic Evaluation是一个国际语义研讨会,每年都会发布自然语言处理领域的相关任务,最新关于情感分析的任务如下:
SemEval-2017任务4包含五个子任务,每个子任务都提供阿拉伯语和英语:
Sentihood是用于基于方面的目标情感分析targeted aspect-based sentiment analysis (TABSA)的数据集,旨在识别针对特定方面的细粒度极性。 数据集包含5,215个句子,其中3,862个包含单个目标,其余多个目标。
Dataset mirror: https://github.com/uclmr/jack/tree/master/data/sentihood
SemEval-2014任务4包含两个特定领域(笔记本电脑和餐厅)的数据集,由超过6K的句子以及细粒度的方面级人类注释组成。
该任务包含以下子任务:
Preprocessed dataset: https://github.com/songyouwei/ABSA-PyTorch/tree/master/datasets/semeval14
https://github.com/howardhsu/BERT-for-RRC-ABSA (with both subtask 1 and subtask 2)
这是关于情感分类的相同任务,其中给定的文本是评论,但我们还额外得到(a)编写文本的用户,以及(b)为其编写文本的产品。 Tang等人介绍了三种广泛使用的数据集。 (2015):IMDB,Yelp 2013和Yelp2014。评估是同时使用准确性和RMSE进行的,但为简洁起见,我们仅在此处提供准确性。 请查看有关RMSE值的文件。
与情感分析相关的任务是主观性分析,其目标是将观点标记为主观或客观。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。