爱奇艺视频拷贝(版权)检测算法

作者：小桥流水78 | 2024-07-17 19:03:24

踩

爱奇艺素材拷贝校验工具

向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程公众号：datayx

随着移动互联网的发展和智能手机的普及，短视频已经成为重要的信息传播媒介，与此同时也带来了大量针对版权长视频的侵权行为。为了保护视频制作公司及原创者权益，需要通过自动化方式进行针对短视频的侵权行为检测。当前的侵权行为出现多样化及规模化特点，侵权视频多经过复合变换，要求算法模型中图像特征具有一定鲁棒性，并且有较快执行速度和并发能力。

本次任务将考察经过复合变换后的短视频关联到对应长视频的算法效果，其中不仅要找到短视频的原始长视频，还要计算出对应的时间段。过程中可能包括视频解码抽帧、视频或图像特征及指纹、视频相似检索等相关算法及技术方案。

数据简介

本次竞赛使用数据分为两部分：版权长视频和侵权短视频。

版权长视频由爱奇艺自制视频组成，版权归爱奇艺所有，侵权短视频由版权长视频经过变换制作生成。

假设版权长视频集合A，经过截取生成视频片段集合B，将B经过变换，得到视频片段集合B‘，将视频片段集合B‘合成到短视频集合C中，得到侵权短视频数据集合D，其中C和A不相交（A∩C =Ø）

其中短视频变换包括但不限于以下形式：

数据说明

训练数据集分为3个部分：

• query文件夹，其中包括3000个视频，为侵权视频训练集，格式为mp4，文件名为视频id，例如：b394c1e0-afd9-11e9-a9d1-fa163ee49799.mp4,其中b394c1e0-afd9-11e9-a9d1-fa163ee49799为视频id，与文件train.csv中字段对应

• refer文件夹，其中包括200个视频，为版权长视频视频集，格式为mp4，文件名为视频id，例如，2528707200.mp4，2528707200表示视频id，与文件train.csv中字段对应

• train.csv文件，记录侵权视频和版权长视频对应的关系及具体匹配时间，其中每列有8个空格分隔，具体字段说明参见下表：

本文相关代码项目获取方式：

关注微信公众号 datayx 然后回复 视频检测 即可获取。

AI项目体验地址 https://loveai.tech

当前思路

提取视频关键帧；
通过resnet18提取关键帧特征；
对特征进行PCA降维（失败中）和L2正则化；
所有视频两两计算得相似度矩阵（余弦相似度）；
对于相似度top-K视频对，进行帧级匹配（按相似度建图，跑最长路）。

一些经验

特征不宜过细，采用resnet50提取特征的效果比resnet18差10~20个点；
当前算法对参数比较敏感，目前取相似度前K=20视频进行帧级匹配，帧级匹配阶段，帧间相似度阈值0.85，最大跨度为10帧；
主要瓶颈在于视频级匹配，只要目标视频落入Top-K视频，基本可以得到正确的帧匹配；
query与refer抽帧密度接近可能较好，也可能是抽帧不易过密。进行了query一秒五帧，refer一秒一帧与它们都一秒一帧两组测试，结果一秒一帧不仅运行速度快，而且得分大大高于另一组。