当前位置:   article > 正文

情感常用数据集整理_afew数据集

afew数据集

CMU-MOSEI

CMU-MOSI为规模最大的三模态数据集,且具有情感和情绪两个标签。
模态: 文本、视频、音频
数据采集方式:YouTube的独白视频,和CMU-MOSI类似,均为正脸
情感标签: negative到positive一共有7个类别
Highly Negative、Negative、Weakly Negative、Neutral、Weakly Positive、Positive、Highly Positive
情绪标签: 高兴,悲伤,生气,恐惧,厌恶,惊讶
数据集大小: 包含3228个视频,23453个句子,1000个讲述者,250个话题,总时长达到65小时(平均单个视频时长为0.02小时)

CMU-MOSI

模态:文本、视频、音频
数据采集方式YouTube的独白视频,均为正脸。
情感标签:总共七个标签,为[-3,3],具体为:
Highly Negative、Negative、Weakly Negative、Neutral、Weakly Positive、Positive、Highly Positive
数据集大小:93个视频,89个讲述者,41个女性讲者和48名男性讲者。年龄大多在20到30岁之间。最终从93个视频中选择了2199个视频片段,总计约50小时
数据集使用指南:https://blog.csdn.net/Bourne___1/article/details/114480999

Youtube

Youtube数据集中视频的形式是单个演讲者面对镜头讲述观点,总共包含20名女性,27名男性讲述者,年龄大约在14-60岁之间,来自不同的种族背景。
数据采集方式:YouTube的独白视频,均为正脸
模态:视频,文本,音频
情感标签:positive、neutural、negative
数据集大小:一共有47个视频

MOUD

数据采集方式:YouTube上的产品评论的视频(西班牙语),均为正脸
模态:视频,文本,音频
情感标签:positive、neutural、negative
数据集大小:一共有80个视频

ICTMMMO

视频形式是一个人直接对着摄像机说话,表达他们的对于电影的评论或陈述与特定电影相关的事实。
数据采集方式:YouTube和ExpoTV上的关于电影评论的视频
模态:视频,文本,音频
情感标签:positive、neutural、negative
数据集大小:一共有370个视频

IEMPCAP

IEMOCAP共包含了5个男演员和5个女演员录制的情感互动过程,录制时长大约12h
模态:视频、音频、动作捕捉(包括头部运动、面部表情、手势)、对话(文本)
数据采集方式:在封闭环境中引导受试者表演剧本(部分包含固定脚本,部分只固定主题)
离散情感标签:总共有十个情感标签,分别为:中性,幸福,悲伤,愤怒,惊讶,恐惧,厌恶,挫败感,兴奋,其他
维度情感标签:依赖 PAD
数据集大小:音视频的总时长约12个小时
语音包含了共12小时的会话语音录音,采样率16kHz,单声道,wav格式。
视频被分割为109,574个片段,平均每个片段时长约3秒,分辨率为480x640,avi格式,RGB颜色,约10TB的数据量
对话共10039轮(脚本会话:5255 轮;自发会话:4784 轮)

UR_FUNNY

数据采集方式:TED演讲(可视为半开放环境)
模态:文本、音频和视频
情感标签:humer & non-humer
数据集大小:1866个TED英文演讲的视频及它们的字幕,包含了1741个演讲者和417个话题。共8257个幽默片段与8257个非幽默片段。

CH-SIMS

该数据集包含了2281个经过精炼的视频片段,来自不同电影、电视连续剧和综艺节目的自发表情、各种头部姿势、遮挡和照明,并且同时具有多模态和独立的单模态注释。
数据采集方式:来自不同电影、电视连续剧和综艺节目的视频
模态:文本、视频、音频
情感标签:五分类:Weakly Positive、Positive、Neutral、Weakly Negative、Negative
数据集大小:共2,281个视频片段

MELD

MELD数据集源于EmotionLines数据集,后者是一个纯文本的对话数据集,来自于经典的电视剧老友记。
数据采集方式:来自经典电视剧老友记
模态:视频,文本,音频
情感标签:Anger, Disgust, Sadness, Joy, Neutral, Surprise、Fear(同时也有:positive, negative 、neutral)
数据集大小:最终的数据集包含13709个片段

MUStARD

MUStARD数据集,是一个多模态视频语料库,用于研究自动讽刺发现。MUStARD 由带有讽刺标签注释的视听话语组成。每个话语都是附带其上下文,提供有关发生话语的方案的其他信息。
数据采集方式:数据集由热门电视节目汇编而成,包括《老友记》、《黄金女孩》、《生活大爆炸》和《匿名讽刺狂》
模态:视频,文本,音频
标签:sarcasm、not sarcasm

MEAD

MEAD 是一个包含60名演员在3个不同强度等级下与8种不同情绪的人进行对话的面对面视频语料库。
数据采集方式:演员在严格控制的环境下,通过七个不同视角捕捉演员对话时的表情及头部姿态信息
包含了情绪和强度两种标签,同时还包含头部姿态信息
强度标签为:weak、medium、strong
情感标签为:Anger、Disgust、Contempt、Fear、Happy、Sad、Surprise、Neutra

AFEW

AFEW是一个从电影场景中进行剪辑的包含多重标签的语料库
数据采集方式:从电影中剪辑包含表情的视频片段,每一帧画面可能存在多个标注对象
情感标签为:Anger、Disgust、Fear、Sad、Happy、Surprise、Neutral
数据集大小:用于Emotion Recognition In The Wild Challenge (EmotiW) 中音视频竞赛的一个数据集,这个项目从2013至2019每年都在进行,数据集也从最初的1400+个序列增加到后面的1800+个序列

IMIGUE

IMIGUE 是一个用于微手势理解和情感分析的无身份视频数据集,共有359个视频。
所有样本来自于359个大满贯赛事赛后新闻发布会的视频
情感标签为:Positive、Negative

LIRIS-ACCEDE

LIRIS-ACCEDE 由从160部电影中提取的9800个高质量的视频片段组成,是维度情感数据库
情感标签依据:PAD维度情感模型

CAER-S

CAER-S是一个探索上下文感知表达的新数据集,包含70000张情感图片
数据采集方式:截取79部电视剧中一些片段
情感标签为:Surprised、Fearful、Disgusted、Happy、Sad、Angry、Neutral
数据集大小:总共13201个视频序列,每个序列长度约为90帧

FER+

FER+是原始 FER 数据集的扩展,为面部表情识别提供了更好的 ground truth
数据采集方式:来自网络的表情图片
情感标签为:Neutral、Happiness、Surprise、Sadness、Anger、Disgust、Fear、Contempt
数据集大小:由35886张人脸表情图片组成,每张图片是由大小固定为48×48的灰度图像组成

RAF-DB

RAF-DB数据集是一个大规模面部表情数据库,其主要标签是​​Expression​​,包含单标签(7类基本情绪)和双标签(12类符合情绪)。此外还有Gender、Race、Age等标签。
数据采集方式:来自网络的 ​​29672​​​ 张多样化的面部图像
情感标签为:Surprised、Fearful、Disgusted、Happy、Sad、Angry、Neutral
数据集大小:包含大约3万张面部图像。

SFEW

​SFEW数据集​​​ 是从 ​​AFEW数据集​​ 中抽取的含有表情的静态帧,表情标签、注释同AFEW
情感标签为:Anger、Disgust、Fear、Sad、Happy、Surprise、Neutral
数据集大小:用于Emotion Recognition In The Wild Challenge (EmotiW) 中音视频竞赛的一个数据集,这个项目从2013至2019每年都在进行,数据集也从最初的1400+个序列增加到后面的1800+个序列

AffectNet

AffectNet是迄今为止最大的FER数据集,包含45万张图像。除了具体的情感标签外,还包含None、Non-face、Uncertain标签
数据采集方式:采集自互联网
情感标签为:Neutral、Happiness、Surprise、Sadness、Anger、Disgust、Fear、Contempt
数据集大小:包含45万张图像

CK+

CK+数据库是在 Cohn-Kanade Dataset 的基础上扩展来的,包含表情的label和Action Units 的label。CK+数据集中每种表情是一组序列(总共有593个图像序列,其中327个序列是有表情标签的):从自然缓慢变化到给定表情
数据采集方式:123位参与者在实验室条件下摆拍指定表情获得
情感标签为:neutral、anger、contempt、disgust、fear、happy、sadness、surprise
数据集大小:593个视频序列,分辨率640490或者640480,基于图片的人脸表情识别中常常取最后几帧作为样本

ULM-TSST

ULM-TSST 是一个多模态的(即声学的、视觉的、文本的和生物的)数据集,
数据采集方式:原始数据记录在一个工作面试情境中,每个参与者,年龄在18到39岁之间,被要求进行5分钟的自由演讲口头陈述。(我认为可以看作是半开放环境)
情感标签:维度情感标签依赖valence-arousal情感模型
数据集大小:一共69个短片,共5 :47 :27

SEND

该数据集由人们讲述重要和情感生活故事的视频片段组成。
数据采集方式:这些视频是在没有背景的情况下以面孔为中心的环境中录制的。
情感标签:维度情感标签依赖valence-arousal情感模型
评价指标:一致性相关系数( CCC )

MovieGraphs

MovieGraphs数据集由7637个电影片段组成,这些电影片段被注释为图,这些图表示谁在每个片段中,角色之间的相互作用,他们之间的关系,以及各种可见和推断的属性,例如某些相互作用背后的原因。每个片段还标注了情境标签、场景标签(情境发生的地方)和自然语言描述。
数据采集方式:电影片段剪辑
情感标签:26类

LIRIS-ACCEDE

数据采集方式:该数据集包含来自160部专业制作和业余电影的视频。
情感标签:维度情感标签依赖valence-arousal情感模型
评价指标:均方误差( MSE )(维度情感标签)

MMI

数据采集方式:32位参与者在实验室条件下摆拍指定表情获得
情感标签:开心、悲伤、惊讶、害怕、厌恶、生气、中立;AU;时序状态(表情开始帧–>峰值帧–>结束帧,onset–>apex–>offset)
数据集大小:2900个视频以及740张图片,分辨率 720*576像素

Oulu-CASIA

数据采集方式:80位参与者在实验室三种光线条件下通过两种不同拍摄方式(近红外和可见光)获得
情感标签:开心、悲伤、惊讶、害怕、厌恶、生气
数据集大小:共2880个视频序列,分辨率320*240,最后几帧为峰值帧

RaFD

RaFD是一个高质量的脸部数据库每一个表情,包含3个不同的注视方向,且使用5个相机从不同的角度同时拍摄的
数据采集方式:实验室环境中摆拍
情感类别:neutral、anger、contempt、disgust、fear、happy、sadness、surprise
数据集大小:包含67名受试者的图像,总共8040张图

FEC Dataset

FEC数据集为论文 A Compact Embedding for Facial Expression Similarity 自建数据集
数据集里的每一样本,包含三张图片和一个标签,L={1,2,3},1代表相比于图片1,2,3两张图片看起来更像,以此类推。数据集并没有指定anchor,但是提供了两个注释,I 2 is closer to I 3 than I 1 , and I 3 is closer to I 2 than I 1。
FI
数据采集方式:从Flickr和Instagram上搜索Mikel’s eight emotions得到
情感标签:Amusement、Awe、Contentment、Excitement、Anger、Disgust、Fear、Sadness
数据集大小:共23308张图片

SE30K8

情感标签:anger, happiness, surprise, disgust, sadness, fear, neutral, surprise-positive, and surprise-negative
数据集大小:共33000张图片

FlickerLDL、TwitterLDL

论文为验证自己的模型构造的数据集,只有图片及对应的情绪标签。
数据采集方式:FlickerLDL中的数据来源于原本的Flicker数据集,TwitterLDL数据集中的数据是从Twitter上下载得到
情感标签:Amusement、Awe、Contentment、Excitement、Anger、Disgust、Fear、Sadness
数据集大小:TwitterLDL 数据集 10045 条数据FlickrLDL 是 Flickr的子集有 11,150 条数据

Emotion-6

数据采集方式:从谷歌收集
情感标签:Sad、Happy、Disgust、Surprise、Anger、Fear
数据集大小:共8350张图片

UnBiasedEmo

情感标签:Sad、Happy、Disgust、Surprise、Anger、Fear

WEBEmo

数据采集方式:从网上下载
情感标签:在论文中作为无标记数据集
数据集大小:共268000张图片

KDEF

KDEF数据集最初是被开发用于心理和医学研究目的。它主要用于知觉,注意,情绪,记忆等实验。
数据采集方式:在实验室场景下进行拍照采集
情感标签:Afraid、Angry、Disgust、Happy、Netural、Sad、Surprise
数据集大小:总共 4900 张彩色图,尺寸为 562*762 像素

CFD(The chicago face database)

CFD提供了17-65岁之间不同种族的男性和女性面孔的高分辨率标准化照片。每个单独的模型都有广泛的规范数据。这些数据既包括身体特征(例如,脸型)以及独立评委的主观评分(例如,吸引力)。
数据采集方式:实验室采集
情感标签:neutral、angry、happy (with open mouth)、happy (with closed mouth)、fearful
数据集大小:CFD包含了597个中性表情的照片。对于参与采集其中158个人,还包括快乐、愤怒和恐惧的表情。

ExpW

数据采集方式:wild
情感标签:angry、disgust、fear、happy、sad、surprise、neutral
数据集大小:包含91,793张人脸表情。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/345954
推荐阅读
相关标签
  

闽ICP备14008679号