多模态情感分析——Twitter15和Twitter17数据集_twitter15数据集

作者：我家小花儿 | 2024-04-06 04:54:58

踩

twitter15数据集

一、原始数据集介绍

数据集链接：

https://pan.baidu.com/s/1JLkaSerBgKe--GBaU0ZkFg?pwd=fqyo提取码：fqyo

数据集介绍：原始的被划分为了训练集（60%）、验证集（20%）、测试集（20%）。

格式：一种是基于LSTM模型的“.txt”格式，另一种是BERT模型的“tsv”格式。例如，对于twitter2015的“train.tsv”，每一行都是一个样本：

（1）第一列是索引；

（2）第二列是情感标签（0表示负面，1表示中性，2表示正面）；

（3）第三列是该推文对应图像的ID，可以在“twitter2015_images”文件夹中找到；

（4）第四和第五列分别是通过掩码当前意见目标和意见目标（即实体）的原始推文。

请注意，每个推文可能包含多个意见目标（即实体），它可能对应于多个连续的样本。例如，对于twitter2015的“train.tsv”，第一个和第二个样本都是关于同一条推文的，但是涉及不同的实体。“.txt”文件与“train.tsv”类似。

Twitter15数据集：

Twitter17数据集：

二、处理方法

（1）Twitter15数据集

将原始的train、dev、test合并到一起，共计5338条，然后将第一列的index作为图片和文本的名字，标签从数字转换为字符串，最终得到了10676个图文对，以及一个train.txt用来保存文件名和标签。

（2）Twitter17数据集

将原始的train、dev、test合并到一起，共计5972条，然后将第一列的index作为图片和文本的名字，标签从数字转换为字符串，最终得到了11944个图文对，以及一个train.txt用来保存文件名和标签。

最后：

如果你想要进一步了解更多的相关知识，可以关注下面公众号联系~会不定期发布相关设计内容包括但不限于如下内容:信号处理、通信仿真、算法设计、matlab appdesigner，gui设计、simulink仿真......希望能帮到你！

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】