当前位置:   article > 正文

『深度数据』视频分类数据集·HMDB51介绍

hmdb51

0.背景

主要的视频分类数据集如表所示:

 

本文详细介绍一个小型方便使用的数据集HMDB51,数据量小,方便使用

 

1. HMDB51介绍

HMDB51包含51类动作,共有6849个视频,每个动作至少包含51个视频,分辨率320*240,。来自于YouTube,google视频等,共2G.

主页地址:http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
推荐在国内使用迅雷下载,速度较快。

动作主要包括:

1) 一般面部动作微笑,大笑,咀嚼,交谈。

2) 面部操作与对象操作:吸烟,吃,喝。

3) 一般的身体动作:侧手翻,拍手,爬,爬楼梯,跳,落在地板上,反手翻转、倒立、跳、拉、推、跑,坐下来,坐起来,翻跟头,站起来,转身,走,波。

4) 与对象交互动作:梳头,抓,抽出宝剑,运球、高尔夫、打东西,球、挑、倒、推东西,骑自行车,骑马,射球,射弓、枪、摆棒球棍、剑锻炼,扔。

5) 人体动作:击剑,拥抱,踢某人,亲吻,拳打,握手,剑战。

 

统计

动作类别,身体部位,相机动作,视点
ActionCategories身体的一部分CameraMotionCameraPosition1
剪辑质量,剪辑持续时间,剪辑持续时间数
ClipQuality持续时间Duration_count

视频稳定

与使用从真实世界视频中提取的视频剪辑相关联的一个主要挑战是可能存在显着的相机/背景运动,假设其干扰局部运动计算并且应该被校正。为了消除相机运动,我们使用标准图像拼接技术来对齐剪辑的帧。这些技术通过检测然后匹配两个相邻帧中的显着特征来估计背景平面。使用包括绝对像素差和检测点的欧拉距离的距离测量来计算两帧的对应关系。然后匹配具有最小距离的点,并且使用RANSAC算法来估计所有相邻帧之间的几何变换(对于每对帧独立)。使用这个估计,

原始的IMGS稳定的IMGS

00001

00002

00020

00021

00050

00051

其他行动识别基准

这项工作是在KTH开始的:  KTH数据集  包含六种类型的操作,每个操作类别包含100个剪辑。紧随其后的是Weizmann  研究所收集的  Weizmann数据集,其中包含10个动作类别和每个类别9个片段。以受控和简化的设置记录以上两组。然后在INRIA中制作从电影中收集并从电影剧本注释的第一个真实动作数据集; 在  好莱坞人类活动集  包含8种类型的动作,每动作类的剪辑数量60之间变化- 140每类。它的扩展版本  Hollywood2 Human Actions Set  在十种情景下提供了总共3669个视频,分布在十类人类行为中。该 UCF小组  也一直在收集行动数据集,主要来自YouTube。UCF运动有9种类型的运动,共有182个剪辑,UCF YouTube包含11个动作类,UCF50包含50个动作类。我们将在论文中展示来自YouTube的视频可能会受到低级功能的偏见,这意味着低级功能(即颜色和要点)比中级恐惧(即运动和形状)更具辨别力。

数据集#行动#CLIPS PER ACTION
KTH2004年610
魏兹曼2005年99
IXMAS2006年1133
好莱坞2008年830-140
UCF体育2009年914-35
Hollywood22009年1261-278
UCF YouTube2009年11100
MSR2009年314-25
奥林匹克20101650
UCF50201050分钟。100
HMDB51201151分钟。101

关于页面

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/193199
推荐阅读
相关标签
  

闽ICP备14008679号