国产视频生成大模型大爆发！三分钟AI短剧批量上线

作者：空白诗007 | 2024-08-16 13:44:48

踩

巴黎奥运会如火如荼地进行着，视频生成大模型的赛场同样热闹，国内多位“参赛选手”纷纷亮相，只为争夺名为“中国版Sora”的金牌。

在刚刚过去的七月，生数科技打造的视频大模型Vidu上线，面向用户开放文生视频和图生视频两大功能；智谱AI正式发布视频生成大模型“清影”；商汤发布首个面向C端用户的可控人物视频生成大模型Vimi；阿里达摩院推出一站式AI视频创作平台“寻光”；快手可灵AI正式上线网页端，并开源名为LivePortrait的可控人像视频生成框架……

AI视频大模型令人惊叹的“增速”，不仅在资本市场炙手可热，更带给影视行业不小的冲击，尤其是当抖音、快手以及央视推出AI制作的短剧后，演员和编剧也开始面临“失业危机”。

不过，科技产品从实验室走向市场，能力至关重要。AI视频大模型能否高质量实现生成内容的连贯性和一致性，才是决定其未来发展的关键。

摸着Sora过河

尽管Sora还没有向公众开放，但提及文生视频，Sora是一个绕不开的话题。

“目前，国产视频生成大模型的技术路径与Sora基本一致，只不过每家都会加入自己的Trick（技巧）。”Logenic AI联合创始人李博杰告诉《IT时报》记者，视频的本质可以看成是多张图片的连续排布放映，在文生图大模型中，最被人们熟知的技术是扩散模型，它可以根据输入的文字描述，获取数据的内在结构和分布规律，从而生成单张图片。

但扩散模型在语义、数据之间的联系存在局限，就需要Transformer模型将不同数据进行互相关联，联想生成大量图片，表达帧与帧之间的关系，最终通过编码器压缩成一条视频。

李博杰表示，目前视频生成大模型的算力可以达到ChatGPT3.5的水平，但还不及ChatGPT4的万卡集群规模，国内许多企业都具备这样的算力。因此在有限的算力下，决定视频质量的关键取决于数据的质量和数量，画面的连贯性也可以通过大量数据训练而实现。

不过，由于关键数据获取难、原始世界数据被越来越多的AI生成内容所“污染”，加上视频数据大多缺乏对应描述性文本或者描述质量低下，国产视频生成大模型开始从模型结构、组件等方面寻求技术突破来保证连贯性。

以智谱清影为例，智谱清影相关负责人周文（化名）告诉《IT时报》记者，为了解决内容连贯性的问题，智谱自研的三维变分自编码器结构（3D VAE）将原视频空间压缩至2%，减少了视频扩散生成模型的训练成本及训练难度。

模型结构方面，将因果三维卷积（Causal 3D convolution）作为主要模型组件，移除自编码器中常用的注意力模块，使得模型具备不同分辨率迁移使用的能力。同时，在时间维度上，因果卷积的形式也使得模型具备视频编解码从前向后的序列独立性，便于通过微调的方式向更高帧率与更长时间泛化。

与传统路径不同的是，智谱清影摒弃了交叉注意力机制（Cross Attention）模块，采用将文本、时间、空间三个维度全部融合起来的Transformer架构，在输入阶段就将文本和视频向量化（Embedding），然后再将不同模态的向量直接连接（Concatenate）起来，形成单一的特征向量，输入到下游任务中。

不过，这两种不同结构的数据特征空间有较大差异，此时就需要通过专家自适应层归一化技术（Expert Adaptive Layernorm）对文本和视频两个模态分别进行处理，利用扩散模型中的时间步信息，实现视觉信息与语义信息的对齐。

一个人拍一部剧成为可能

视频生成大模型的批量上线，最有可能被影响的是影视行业。

“不可否认，视频生成大模型让我们看到了影视发展的新可能。”上海大学温哥华电影学院副院长陈晓达告诉《IT时报》记者，AI生成不仅可以降低影片制作、场景搭建、妆造设计等成本和时间，也降低了入局门槛，一个人就有可能拍摄完一部剧。

6月28日，中央广播电视影视剧纪录片中心制作的三部AI短剧《英雄》《爱永无终止》《奇幻专卖店》上线央视频。此后，博纳影业与抖音合作推出AI科幻短剧《三星堆：未来启示录》，快手也利用可灵AI原创上线了AI奇幻短剧《山海奇镜之劈波斩浪》。截至8月8日，抖音和快手打造的两部AI短剧在所属平台播放量已经分别累计达到5504.7万次和5243.2万次。

从这些AI短剧中可以看到，人物角色的面部特征从始至终保持一致。通常而言，单纯使用文字描述生成视频时，每次的结果都会有一定差异，那么，这些短剧的一致性是如何实现的呢？

李博杰分析，其中可能用到了文生视频的核心模型——ControlNet。ControlNet是一种“辅助式”的神经网络模型结构，通过在Stable Diffusion模型中添加辅助模块，形成一个“锁定”副本和可训练副本。简单来说，通过ControlNet完成人物形象建模后“锁定”，再通过可训练副本进行后期视频场景、动作等变换。

也正是因为“锁定”，视频人物难以实现大幅度动作，陈晓达经过实测后告诉记者，每生成一帧画面都是一次“开盲盒”的过程，无法确保生成内容符合标准，因此只能花费大量时间不断生成，从中挑选出可用画面拼凑成一部短剧，“你会发现宣传的都是3分钟以内的短剧，想要靠AI生成拼凑出一部完整的长视频作品，目前还做不到。”

《山海奇镜之劈波斩浪》导演陈坤同样认为，在人物一致性、场景一致性、人物表演、动作交互等AI技术还没有高度可控和精确化的前提下，AI影视作品并不适合呈现特别复杂的故事，容易让观众出戏。

智谱AI CEO张鹏在接受媒体采访时也表示，现在视频生成大模型的商业化仍处于非常早期的阶段，生成效果对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等，都有非常大的提升空间。

“三无”AI电影威胁好莱坞

市场是有“嗅觉”的，虽然目前生成效果并不完美，但视频生成大模型赛道的火热程度不言而喻。启明创投主管合伙人周志峰在2024世界人工智能大会上预测，3年内AI视频生成技术将全面爆发。头豹研究院数据显示，预计到2026年，中国AI视频生成行业的市场规模将达到92.79亿元。

具体来看，快手可灵发布三个多月后，申请体验用户数量已突破 70 万，甚至出现排队等候申请的情况，累计生成的视频作品达 700 万份；爱诗科技打造的PixVerse大模型在国内上线88天后，达到一千万次视频生成量。这也成为央视着手制作AI短剧的原因之一。

**当无演员演绎、无场景搭建、无绿幕特效的“三无”AI影视作品走向市场时，演员和编剧的“危机”也悄然来临。**博纳影业集团影视制作副总经理曲吉小江在China Joy短剧创新论坛上表示，将为AI短剧塑造的角色打造热门个人IP。

面对AI“威胁”情况，从去年夏天开始，美国编剧工会和演员工会联手发起大罢工，让好莱坞陷入长达数月的停摆，导致影视作品数量大幅减少。据外媒报道，这一情况在今年依然没有出现好转，部分演员还被要求在与华纳公司的合同中同意使用“数字合成形象”，若拒绝则可能失去工作机会。

从国产视频生成大模型的现有能力来看，制作动态海报、广告短片、特效动画等已经不在话下，且应用场景还在扩展。陈晓达认为，技术本身固然重要，但首先要让使用者掌握标准化的工业流程，新技术才得以长效落地，“AI技术短时间内没法取代演员和编剧的地位，但会使用AI技术的人很快就能取代他们”。

对此，上海大学温哥华电影学院在去年2月开始开设AI电影课程，一方面让学生学会使用AI来提升影视制作效率和节省成本；另一方面也是为了顺应时代浪潮，不被“取代”。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/空白诗007/article/detail/988558