当前位置:   article > 正文

论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)_音视频鉴伪auc

音视频鉴伪auc

一、论文信息

论文名称:Combining EfficientNet and Vision Transformers for Video Deepfake Detection

论文代码:https://github.com/davide-coccomini/Combining-EfficientNet-and-Vision-Transformers-for-Video-Deepfake-Detection

会议:ICIAP2022

作者团队:

二、创新

传统基于CNN的方法在EfficientNetB7上效果很好,本文使用EfficientNet B0和ViT结合在DFDC数据集上取得了auc 0.951和f1 0.88的成绩,与DFDC数据集上最好的检测水平非常接近。将各种类型的视觉变换器与卷积EfficientNet B0相结合,提取人脸特征。不使用蒸馏法,也不使用集成法。而是一种基于简单投票的方案,用于处理同一视频镜头中的多个不同人脸。在时间上和跨多个人脸上 聚合推断出视频片段的真伪。

三、方法

  • 网络输入:提取的人脸。

  • 网络输出:人脸被操纵的概率。

用人脸检测器MTCNN对人脸进行预提取;

再用Efficient ViT and Convolutional Cross ViT两个网络训练

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/757087
推荐阅读
相关标签
  

闽ICP备14008679号