赞
踩
目录
DFDC数据集体积高达472GB,包括了119,197个视频,每个视频时长都为10秒,但是帧率从15~30fps不等,分辨率也从320x240~3840x2160不等。训练视频中有19,197个视频是由大约430名演员真实拍摄的片段,剩余100,000个视频是由真实视频生成的假脸视频。假脸生成使用了DeepFakes, Face2Face等多种主流假脸生成算法,使得数据集包含尽可能多的假脸视频。
472GB的数据集需要从Kaggle对于有的小伙伴还是有困难的,于是我把数据集放到了百度网盘,下载地址在文末。
1. 正负样本比例大约为1:5, 需要解决样本不均衡问题。
2. 平均每个真视频生成5个假视频,但有的真视频只生成了1个假视频,而有的生成30+个假视频,具体分布如下:
3. 5%~10%的视频会出现2个人,绝大部分视频中只有1个人。
4. 有的假脸非常明显。
5. 有的假脸肉眼也很难分辨,不妨猜猜下面的视频中哪些是假脸,哪些是真脸。
6. 演员的男女,种族,年龄都在合理的分布范围内。
数据集的基本情况就是如此了,挑战的目标就是识别这些视频里的人脸是真人脸还是AI生成的假人脸。
从Kaggle官网下载需要注册,注册的时候需要梯子才能出现验证码,地址如下,数据集有两个版本一个是475G整体文件,一个是分成50份,每份10G左右,内容都是一样的。
Deepfake Detection Challenge | Kaggle
我把数据集下载并放到网盘,方便小伙伴们使用,下载的是分成50份的版本
链接:https://pan.baidu.com/s/1zPB_4pAelNA1hcENygTwWw
提取码:faye
关注订阅号了解更多精品文章
交流探讨、商务合作请加微信
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。