凡人多烦事01

这个屌丝很懒，什么也没留下！

热门标签

AI自动剪辑生成视频探索实践

作者：凡人多烦事01 | 2024-02-18 06:53:53

踩

视频ai 合成 nlp

点击上方“LiveVideoStack”关注我们

▲扫描图中二维码或点击阅读原文▲
了解音视频技术大会更多信息

编者按：随着短视频时代的到来，以短视频作为载体进行音乐推广具备了更大的想象空间。海量的视频和图像素材库使得音乐短片视频制作者往往需要花费大量的时间和精力去寻找或是制作与音乐短片相关的图像或视频，十分浪费人力物力。LiveVideoStackCon 2022上海站大会邀请到了网易云音乐音视频算法专家赵剑，详细介绍网易云音乐结合多年音乐领域多模态算法能力积累与实际业务需求，实现AI自动剪辑生成视频的技术探索与与实践。

文/赵剑

整理/LiveVideoStack

大家好，我是赵剑，来自网易云音乐，本次分享的主题是AI自动剪辑生成视频的探索实践，内容主要分为以下几个部分：

What — 什么是AI自动生成音乐视频？
Why — 为什么需要基于AI自动生成音乐视频？
How — 如何实现AI自动生成音乐视频？

首先为大家播放由三段不同类型的音乐视频，全程无人工参与，完全通过AI自动生成。

第一个视频的歌曲所表达的情感和视频画面的内容搭配及视频整体的视觉色彩都比较吻合，较好地传达了音乐创造者的情绪。对比传统的非音乐视频，音乐视频更需要画面传递音乐的情绪，而不能简单地将画面进行拼接。

大家可能觉得第二个视频只是基于简单的文本歌词匹配生成的音乐视频，但其实是结合音乐的旋律及评论等特性而生成。

第三个视频的音乐节奏非常快且难度较高，那么与之相应生成的视频也是热血的。

音乐视频的特性在于音乐需要作为情感的载体与听众产生共鸣，于是在生成视频时需要考虑到情感和视频的关系以及节奏和画面的匹配度、连贯性、色彩及视觉的一致性。

以上三个视频都由我们的音视频实验室“AI一键自动生成”音乐视频系统生成，它整合了音乐、视频、文本等相关的原子算法，从音乐内容及视频内容两部分进行分析，多模态、多角度地全自动生成音乐视频，助力音乐视频的创作、筛选和分发。

网易云音乐实验室业务以音乐的多样性为中心，分别从理解、处理以及生产三大技术方向出发，为多种业务场景提供定制化优化，目的是增强消费感知。为此，我们自研了很强的音视频沉浸式体验包，大家可以在APP中体验已上线的沉浸式音频。创作方面，我们分别从音乐以及视频这两条路径提高创作者的创作效率，包含了视频及音乐的自动化创作。

实验室以多年积累及自研的底层原子算法为基础，针对音视频不同的业务方向提供各类型的解决方案，为图中网易云音乐的各类型产品保驾护航。

1、Why音乐视频自动化剪辑生成

接下来正式为大家介绍AI自动剪辑生成视频的探索实践。

首先，为什么做音乐视频自动生成？如图是音乐消费的演变，无论是早期的磁带、CD、MP3，还是音乐流媒体公司的歌单，音乐始终以非可视化的听体验为主。近年来，短视频发展迅速，在视频化场景中，用户被各种各样UGC视频的bgm洗脑并收藏感兴趣的bgm。视频作为音乐的另一种情感化载体，为用户带来更多的沉浸式消费。

网易云音乐作为国内领先的数字音乐流媒体公司，在音乐视频化方面也进行了一些拓展。

如图，左侧是一个云音乐视频化的产品，我们会定期在云村发布音乐视频形式的活动，鼓励平台的音乐视频创作者参与。创作者根据不同类型的音乐从积累的视频素材库中筛选出与音乐相匹配的视频片段，再由视频编辑工具处理，最终生成音乐视频。在与平台创作者的沟通中，我们发现对于大部分创作者来说，痛点是制作音乐视频的门槛较高。他们不仅需要一定的音乐相关知识，同时需要人力管理对于他们来说比较庞杂的视频素材库，此外还需要学习使用专业的视频编辑工具。

如图是我们对平台创作者进行调研的结果，对比人工剪辑及算法自动生成，我们总结得出人工制作一个质量较高的音乐视频普遍需要30分钟到两天的时间，而算法完全自动化平均仅需3分钟。（统计数据包括15-30秒的视频，以及3-5分钟左右MV类型的视频）

许多创作者本身的乐理知识较为匮乏，算法自动生成能够自动分析音乐各要素，并在素材侧通过音乐、视频及文本的自动化管理，两者结合为没有系统学习过音视频剪辑的创作者带来福音，同时也大大提高了平台的视频生产效率。

2、AI自动剪辑生成音乐视频系统

其次，如何搭建高效自动生成音乐视频的系统？

如图是基本的架构图，下方最左侧是输入层，主要包括用户想要创作的音乐以及海量素材库，中间处理层包含全自动化生成相关的技术，最后渲染成片。

上层业务支持1：1的视频配乐，包括音乐配视频。并且我们的系统能力使得音乐剪辑生成能够达到1：N的实现。1：1和1：N的区别在于1比1是出去旅游时自拍了一段视频后从音乐库中随机挑选一首适合的音乐，这样一首音乐只和一个视频相关联。而1：N是在给定一首音乐的前提下，从海量视频库中挑选多个片段并进行从而形成完整的视频。

自动生成音乐视频的流程大致如下：首先随机上传一首音乐，通过音乐技术、文本相关的NLP的技术以及众多的视频技术对其进多维度分析，技术重点在于对各个模态的数据进行分析。

接着在素材库中进行多模态检索，按照音乐整体的时间维度，挑选众多的候选集列表。从上往下可以理解为音乐时间发展脉络，即在每个时间点有相应的众多视频，比如最开始的3s，候选列表有这些视频，但我们不需要这么多视频，只需要挑选出最合适的视频并且保证最终挑选出来的视频能够组成最优的序列。

最后是比较重要的素材编排技术及编排之后合成相关技术，包括自动化匹配特效，自动化生成视频封面等。

如图所示是完整的技术框架，数据层作为上层算法分析的输入，覆盖了音乐相关的音频和音乐相关的歌词、评论、素材，整体看来是多模态信息；底层技术包括音乐分析、文本分析、视频分析等，工作是不同模态内容的理解，同时包括管理的海量素材整体质量的提升；中层技术包括跨模态的匹配技术，解决了音乐音频，音乐文本以及视频不同模态之间的匹配问题。

在素材的编排技术层面，能够确保生成长序列的视频符合人眼的视觉色彩以及流畅性；最上层则是衍生而来的相关应用。

2.1. 音乐分析

接下来从四个方面详细介绍详细的技术框架：第一，音乐分析。

写作文时，大家最熟悉的是总分总结构，对应到音乐中就是曲式结构，简单地可以将其划分为非副歌以及副歌。较为复杂地可以划分为前奏、主歌、间奏，桥段等，前奏和主歌类似于文章中的不同片段，如果把文章改成倒排格式，那么段落之间可以再进行一些其他的组合，这就形成了不同的曲式结构。

既然我们是为音乐生成视频，那就应具备为不同的音乐片段生成相应视频的能力，所以需要制作音乐的曲式结构，对不同音乐段落的自动识别。尤其对于副歌的高潮片段，我们的诉求是对应不同的段落能够生成的不同类型的视频。

前面介绍了力度较粗的曲式结构中的段落，接着进一步细分介绍节奏点。

节奏点作为音乐律动的重要表现形式，我们在算法侧实现了针对不同类型的歌曲，不同模式的节奏点的表示方法，包含了手机视频编辑APP的卡点模式。我们在制作音乐时，卡点只是其中的一个小模块，涵盖了节拍点，小节点，段落点，不同模式。具体在什么情况下使用什么类型的卡点，我们根据歌曲的类型做了映射。针对创造者或者用户来说，他们希望看到在不同的段落点，视频画面的是自动切换的。图中可以看到节拍点在峰值处相当于是音频的节拍点，在每个节拍点做到了视频画面的切换。

图中反映的是我们自研的业内领先的一套多任务统一框架的音乐分析模型，支持曲式结构、节拍点、bpm等音乐元素的算法及音乐要素的识别。

在音乐方向搭建多任务的统一框架面临着许多挑战。不同于图像、语音或NLP方向等数据标注比较容易，没有门槛。对音乐来说，多任务的标注需要较强的音乐背景，基于平台的优势，我们积累了众多多任务下面的音乐数据。完成了多任务模型框架统一，在准确率及性能方面远超单模型。

为什么搭建多任务统一框架？音乐的要素如旋律及和弦是相辅相成的，可以把旋律理解为小孩子画的草图，和弦理解为草图的配色，它们之间存在内在的关系。如果都做成单任务，就损失了互相的约束信息，于是我们将其做成多任务框架。此外，如果对每一个音乐要素都单独做一个任务，那么需要N个模型，导致推理计算时的整体效率很低。

音乐作品本身承载着丰富的情感，情感和视觉颜色之间也存在着深层次的关系，不同色彩能够体现不同的情感。图中主歌部分对应的情感属于较低层，如果在情绪低沉的片段搭配鲜明的颜色显然不合适。所以就需要对音乐进行自动化的情感识别，并为其搭配适合的色彩。

针对音乐情感的自动识别，我们自研了一套多模态的情感识别网络框架。

上层音乐情感的整体识别系统支持从训练到推理的闭环，下层支持音频、歌词不同维度的情歌识别。由于情感本身是复杂的心理过程，不仅体现在音频、歌词中，也体现在评论中，所以下面这块也包括了音频、歌词及评论信息。整体是多模态的算法，给定一个音频包括文本相关信息，能够输出自动识别的情感。

音乐视频有些类似于传统的KTV，需要准确显示音频对应时间的歌词。平台中部分歌词是由热爱音乐的UGC用户上传而来，不可避免会存在一些噪声数据，即提供的歌词和播放的时间存在偏移或是缺失。此时就需要利用算法进行修正，也就是将UGC提供的歌词时间戳重新对齐音频。我们利用到针对音乐方向的语音识别及定制化语言模型，通过这两个模块完成歌词与音频时间戳的对齐。

如图，左侧是逐字歌词，每一个字的时间戳和音频的时间戳对齐。右侧是逐行歌词，只需逐行的开头时间戳与音频时间戳对齐。

音乐分析还有更多其他方面，我们这里主要介绍下音乐文本相关的技术。我们利用深度学习相关的LP侧的大模型，如boot及其他运算类模型完成音乐文本侧包括关键词、实体、语义匹配相关的任务。做关键词信息的目的是去除歌词中对视频生成来说无效的信息从而提取有价值的信息，此外还需提取歌词中特殊的实体。最后是语义匹配，主要做的是文本侧语义层面的相似度。

2.2. 视频分析

如图所示是视频素材生成的流程。首先需要数据源，针对于数据源，网易集团的海量中台库，通过用户上传共建及外部采买复用素材源。由于网易不仅只有音乐，所以需要对收集的素材源按照音乐标准进行处理加工，包括视频相关的一系列AI处理、转码、拆条、打标。另外不可避免地会出现重复视频，对此需要去重去劣、提质等。

完成以上步骤后依然无法保证是100%可用的，这就需要在第三个环节引入人工审核标准。最后将通过算法智能处理及人工审核后的素材在各个业务线共享，从而形成闭环的素材管理。

视频分析主要运用了当前的深度学习，即与视频AI相关的视频处理算法，其中最重点的是视频拆条。

素材输入后，首先将其拆条，再理解视频。此外，由于视频本身含有无效的区域，所以要进行有效区域的裁剪。针对特殊的应用场景，还需进行视频的掏分、增强。最后为生成的视频智能选取封面。在整个处理环节中不仅利用了流行的AI算法，还融合了被大家忽视的传统视频图像的算法。

以上这些步骤的主要目的是过滤低质量的视频内容，在海量库中挖掘高质量素材。

接下来会展开介绍上面提到的六个点，视频切片、视频有效区、视频超分增强、视频多模态、视频编排以及视频封面。

素材源中许多视频属于长视频，由许多场景及不同的镜头组成。对于音乐视频来说会有许多冗余的视频信息，视频切片的目的是提取精彩视频片段，同时按照视频场景进行切割，形成一系列视频序列。算法的主要思路是提取视频场景镜头的关键帧，运用AI相关算法（各类型质量打分、场景持续时间相关算法），根据不同要素权重决定片段是否为有效的精彩片段，从而形成一系列的视频片段序列。

如图，左侧是原始视频，右侧是根据场景及镜头进行视频切片后的呈现方式

我们更偏向于获得较为干净的素材，但有些素材是通过用户共建的方式获取而来，难免包括不纯净的素材，比如在字幕中包括与视频内容不符的文字信息。对此我们利用深度学习的OCR文字定位，霍夫变换传统方法检测视频画面的有效区域。针对字幕提取，我们利用算法定位（图中红线位置）大概的位置。有些同学可能会疑惑，如果画面中出现了在中间或是其他位置的干扰文字该怎么处理？首先需要剔除噪声数据，利用语音识别技术，根据歌词应该出现的时长及是否居中等要素权衡不同权重，判断画面中出现的文字是字幕还是干扰信息，最后进行剔除。右图中的绿色部分是最后留下的有效视频片段。

云音乐发展至今，早已不再局限于一个APP，我们同时在多终端拓展，针对特殊的设备要求。比如1920的素材显示在4K屏幕中，此时需要进行超分增强从而满足在不同分辨率的显示。在增强部分引入了人像聚焦区域的特殊增强，既增强了整体的视频画面，又增强了指定有效人脸位置及风景等特殊的显著区域。

在超分增强方面，主要对风景类及动漫类原素材进行处理。右上是原视频，右下是超分增强后的视觉效果。

2.3. 素材编排

当生成一段音乐视频时，在每一个时间戳的位置都有N个视频候选列表，对应到每个时间段都有一个候选集。那么在每个时间点只需要选取少部分的视频，同时每一步选取视频时应考虑到上面选取的视频和下面选取的视频会互相影响，在选择视频时既要考虑当前的时间戳，也要考虑全局的连贯性。

由此我们想到信息论中，信息熵越小，系统越有序，对于视频序列来说，思路类似。信息熵一个经典的应用是在生产模型中的隐马尔可夫，我们借鉴隐马尔可夫，将当前视频认为是显著状态。但视频的具体次序及先后关系其实是隐藏的状态，此时需要解决的问题是如何确保每一个时间段选择的是哪一个可见状态，以及它的隐藏状态，最终借助全局的优化算法实现了目标。在优化算法的过程中，我们考虑到了各维度的度量信息如视觉、语义、标签及镜头等。图中可以看到经过编排后的候选集中保留了从视觉、场景各方面来说相对最优的序列。

2.4. 多模态分析

多模态方面主要分为粗匹配及精细匹配。在粗匹配阶段，我们利用各个模态的标签，如针对音乐和视频分别有对应的标签体系。在粗匹配时基于标签体系映射找到合适的粗视频候选集，再进入各维度包括音乐、文本、音乐音频的不同模态的embedding层。其中音乐及文本、音频、视频的embedding是通过超大模型的训练获取而来，积累了人工挑选出的众多优质的音乐视频。

这里借鉴的思想类似clip模型，能够为视频或图像自动匹配文字，或是为文字自动匹配视频，主要通过借鉴一套大模型的框架，搭建出多模态的训练框架，最终能够表示音频、文本及视频，且它们之间能够跨模态检索。这套技术的应用范围非常广泛，包括视频收视频、文本收音频、跨模态检索，最右侧是精匹配后的效果。