论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection（深度鉴伪）_音视频鉴伪auc

作者：寸_铁 | 2024-06-25 18:48:07

踩

音视频鉴伪auc

一、论文信息

论文名称：Combining EfficientNet and Vision Transformers for Video Deepfake Detection

论文代码：https://github.com/davide-coccomini/Combining-EfficientNet-and-Vision-Transformers-for-Video-Deepfake-Detection

会议：ICIAP2022

作者团队：

二、创新

传统基于CNN的方法在EfficientNetB7上效果很好，本文使用EfficientNet B0和ViT结合在DFDC数据集上取得了auc 0.951和f1 0.88的成绩，与DFDC数据集上最好的检测水平非常接近。将各种类型的视觉变换器与卷积EfficientNet B0相结合，提取人脸特征。不使用蒸馏法，也不使用集成法。而是一种基于简单投票的方案，用于处理同一视频镜头中的多个不同人脸。在时间上和跨多个人脸上聚合推断出视频片段的真伪。

三、方法

网络输入：提取的人脸。

网络输出：人脸被操纵的概率。

用人脸检测器MTCNN对人脸进行预提取；

再用Efficient ViT and Convolutional Cross ViT两个网络训练

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/寸_铁/article/detail/757087