赞
踩
Dataset之IMDB影评数据集:IMDB影评数据集的简介、下载、使用方法之详细攻略
目录
标签数据集包含5万条IMDB影评,专门用于情绪分析。评论的情绪是二元的,这意味着IMDB评级< 5导致情绪得分为0,而评级>=7的情绪得分为1。没有哪部电影的评论超过30条。标有training set的2.5万篇影评不包括与2.5万篇影评测试集相同的电影。此外,还有另外5万篇IMDB影评没有任何评级标签。
The labeled data set consists of 50,000 IMDB movie reviews, specially selected for sentiment analysis. The sentiment of reviews is binary, meaning the IMDB rating < 5 results in a sentiment score of 0, and rating >=7 have a sentiment score of 1. No individual movie has more than 30 reviews. The 25,000 review labeled training set does not include any of the same movies as the 25,000 review test set. In addition, there are another 50,000 IMDB reviews provided without any rating labels.
IMDB影评得分估计竞赛任务一共为参赛者提供了4份不同的数据文件,其中包括:
(1)、labeledTrainData.tsv:已经标有情感倾向的训练文件,里面有25000条影评以及对应的情感倾向标识。
(2)、sampleSubmission.csv:待测试文件,同样也另有25000条电影评论。
(3)、unlabeledTrainData.tsv:还有一份无标注但是数据量更大的影评文件。
(4)、sampleSubmission.csv:最后是一份样例文件,用来告知参赛者最终结果的提交格式。
更新ing
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。