赞
踩
主要的视频分类数据集如表所示:
本文详细介绍一个小型方便使用的数据集HMDB51,数据量小,方便使用
HMDB51包含51类动作,共有6849个视频,每个动作至少包含51个视频,分辨率320*240,。来自于YouTube,google视频等,共2G.
主页地址:http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
推荐在国内使用迅雷下载,速度较快。
动作主要包括:
1) 一般面部动作微笑,大笑,咀嚼,交谈。
2) 面部操作与对象操作:吸烟,吃,喝。
3) 一般的身体动作:侧手翻,拍手,爬,爬楼梯,跳,落在地板上,反手翻转、倒立、跳、拉、推、跑,坐下来,坐起来,翻跟头,站起来,转身,走,波。
4) 与对象交互动作:梳头,抓,抽出宝剑,运球、高尔夫、打东西,球、挑、倒、推东西,骑自行车,骑马,射球,射弓、枪、摆棒球棍、剑锻炼,扔。
5) 人体动作:击剑,拥抱,踢某人,亲吻,拳打,握手,剑战。
与使用从真实世界视频中提取的视频剪辑相关联的一个主要挑战是可能存在显着的相机/背景运动,假设其干扰局部运动计算并且应该被校正。为了消除相机运动,我们使用标准图像拼接技术来对齐剪辑的帧。这些技术通过检测然后匹配两个相邻帧中的显着特征来估计背景平面。使用包括绝对像素差和检测点的欧拉距离的距离测量来计算两帧的对应关系。然后匹配具有最小距离的点,并且使用RANSAC算法来估计所有相邻帧之间的几何变换(对于每对帧独立)。使用这个估计,
这项工作是在KTH开始的: KTH数据集 包含六种类型的操作,每个操作类别包含100个剪辑。紧随其后的是Weizmann 研究所收集的 Weizmann数据集,其中包含10个动作类别和每个类别9个片段。以受控和简化的设置记录以上两组。然后在INRIA中制作从电影中收集并从电影剧本注释的第一个真实动作数据集; 在 好莱坞人类活动集 包含8种类型的动作,每动作类的剪辑数量60之间变化- 140每类。它的扩展版本 Hollywood2 Human Actions Set 在十种情景下提供了总共3669个视频,分布在十类人类行为中。该 UCF小组 也一直在收集行动数据集,主要来自YouTube。UCF运动有9种类型的运动,共有182个剪辑,UCF YouTube包含11个动作类,UCF50包含50个动作类。我们将在论文中展示来自YouTube的视频可能会受到低级功能的偏见,这意味着低级功能(即颜色和要点)比中级恐惧(即运动和形状)更具辨别力。
数据集 | 年 | #行动 | #CLIPS PER ACTION |
---|---|---|---|
KTH | 2004年 | 6 | 10 |
魏兹曼 | 2005年 | 9 | 9 |
IXMAS | 2006年 | 11 | 33 |
好莱坞 | 2008年 | 8 | 30-140 |
UCF体育 | 2009年 | 9 | 14-35 |
Hollywood2 | 2009年 | 12 | 61-278 |
UCF YouTube | 2009年 | 11 | 100 |
MSR | 2009年 | 3 | 14-25 |
奥林匹克 | 2010 | 16 | 50 |
UCF50 | 2010 | 50 | 分钟。100 |
HMDB51 | 2011 | 51 | 分钟。101 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。