当前位置:   article > 正文

爱奇艺视频拷贝(版权)检测算法

爱奇艺 素材拷贝校验工具

向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程   公众号:datayx

        随着移动互联网的发展和智能手机的普及,短视频已经成为重要的信息传播媒介,与此同时也带来了大量针对版权长视频的侵权行为。为了保护视频制作公司及原创者权益,需要通过自动化方式进行针对短视频的侵权行为检测。当前的侵权行为出现多样化及规模化特点,侵权视频多经过复合变换,要求算法模型中图像特征具有一定鲁棒性,并且有较快执行速度和并发能力。

本次任务将考察经过复合变换后的短视频关联到对应长视频的算法效果,其中不仅要找到短视频的原始长视频,还要计算出对应的时间段。过程中可能包括视频解码抽帧、视频或图像特征及指纹、视频相似检索等相关算法及技术方案。

数据简介

本次竞赛使用数据分为两部分:版权长视频和侵权短视频。

版权长视频由爱奇艺自制视频组成,版权归爱奇艺所有,侵权短视频由版权长视频经过变换制作生成。

假设版权长视频集合A,经过截取生成视频片段集合B,将B经过变换,得到视频片段集合B‘,将视频片段集合B‘合成到短视频集合C中,得到侵权短视频数据集合D,其中C和A不相交(A∩C =Ø)

其中短视频变换包括但不限于以下形式:

数据说明

训练数据集分为3个部分:

• query文件夹,其中包括3000个视频,为侵权视频训练集,格式为mp4,文件名为视频id,例如:b394c1e0-afd9-11e9-a9d1-fa163ee49799.mp4,其中b394c1e0-afd9-11e9-a9d1-fa163ee49799为视频id,与文件train.csv中字段对应

• refer文件夹,其中包括200个视频,为版权长视频视频集,格式为mp4,文件名为视频id,例如,2528707200.mp4,2528707200表示视频id,与文件train.csv中字段对应

• train.csv文件,记录侵权视频和版权长视频对应的关系及具体匹配时间,其中每列有8个空格分隔,具体字段说明参见下表:

本文相关代码 项目获取方式:

关注微信公众号 datayx  然后回复  视频检测  即可获取。

AI项目体验地址 https://loveai.tech

当前思路

  1. 提取视频关键帧;

  2. 通过resnet18提取关键帧特征;

  3. 对特征进行PCA降维(失败中)和L2正则化;

  4. 所有视频两两计算得相似度矩阵(余弦相似度);

  5. 对于相似度top-K视频对,进行帧级匹配(按相似度建图,跑最长路)。

一些经验

  1. 特征不宜过细,采用resnet50提取特征的效果比resnet18差10~20个点;

  2. 当前算法对参数比较敏感,目前取相似度前K=20视频进行帧级匹配,帧级匹配阶段,帧间相似度阈值0.85,最大跨度为10帧;

  3. 主要瓶颈在于视频级匹配,只要目标视频落入Top-K视频,基本可以得到正确的帧匹配;

  4. query与refer抽帧密度接近可能较好,也可能是抽帧不易过密。进行了query一秒五帧,refer一秒一帧与它们都一秒一帧两组测试,结果一秒一帧不仅运行速度快,而且得分大大高于另一组。

TODO

  1. 细粒度抽帧(当前1s抽一帧,感觉已经足够了);

  2. 代码重构(还差video_retrieval);

  3. 继续case analysis(不同视频,相同位置、角度与表情的大妈和男生的相似度竟然有85%,特征提取要继续研究)。


阅读过本文的人还看了以下文章:

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

长按图片,识别二维码,点关注


机器学习算法资源社群

不断上传电子版PDF资料

技术问题求解

 QQ群号: 333972581  

长按图片,识别二维码


 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/841541
推荐阅读
相关标签
  

闽ICP备14008679号