阿里：你们让我推出AI产品，我出了，被字节跳动一枪秒了，有什么好说的？_magicanimate

作者：Gausst松鼠会 | 2024-03-20 00:07:08

踩

magicanimate

就这样，被我们寄于厚望的阿里巴巴倒在了字条跳动的枪口之下了……前几天发的只靠单张照片和动作就能生成跳舞视频的项目，可是他们没有发布代码和演示，而字节今天直接就放出了同样的项目并提供了代码和演示。

MagicAnimate是一款基于扩散模型的人类图像动画框架，其独特之处在于不仅能够将静止的图片转化为动作视频，还支持与文本结合创建动画。此外，该框架还具备多人照片处理的能力，致力于提升时间一致性、忠实保留参考图像，并增强动画的真实感。MagicAnimate使用视频扩散模型和外观编码器来进行时间建模和身份保持。为了支持长视频动画，开发了一个简单的视频融合策略，在推理过程中产生平滑的视频过渡。这种技术在动画制作、游戏设计、虚拟现实等领域具有广泛的应用潜力。

主要功能特点：

时间一致性动画：MagicAnimate的目标是根据运动序列使参考图像动起来，并保持时间上的一致性。能够确保动画在时间上的连贯性，动画中的动作看起来自然流畅，没有突兀的变化。
忠实于原图：在动画化过程中，它能够保持对原始参考图像的高度忠实度，确保动画中的人物或对象与原图保持一致。
跨身份动画：MagicAnimate还能够进行跨身份动画，即使用来自不同视频的运动序列来动画化参考图像。网站展示了三个身份和两个运动序列的视频结果。
未见领域动画：该项目能够动画化未见领域的图像，例如油画和电影角色，使其执行跑步或瑜伽等动作。
与T2I扩散模型结合：MagicAnimate还可以与DALLE3生成的参考图像结合，使其执行各种动作。每个参考图像的文本提示也在视频下方展示。
多人动画：该框架还支持多人动画，根据给定的运动序列动画化多个人物。

MagicAnimate的主要工作原理包括以下几个关键技术：

视频扩散模型： MagicAnimate采用视频扩散模型处理时间序列数据。这种模型能够考虑图像随时间的变化，确保生成的动画在时间上表现出连贯和一致性。
外观编码器：为了保持动画中人物的身份和外观特征与原始图像一致，MagicAnimate使用外观编码器。该编码器确保在动画过程中人物的基本特征（如面部特征、服装等）保持不变，提高生成动画的真实感。
参考图像和目标动作序列：在生成动画时，MagicAnimate需要两个输入：一是参考图像（例如人物照片），二是目标动作序列，描述人物应该如何移动。这种双重输入方式使得动画生成更具有个性化和定制性，能够适应不同的任务和需求。
视频融合策略：为了生成更自然的长时动画，MagicAnimate采用视频融合策略。该策略能够在动画的不同部分之间实现平滑过渡，避免突兀的切换，提高整体动画的质量和流畅度。
多样化应用： MagicAnimate不仅限于基本的图像动画化，还能应用于更多场景。例如，它可以用于将未见领域的图像（如油画或电影角色）动画化，或者结合文本描述生成动画。这种多样化的应用使得MagicAnimate具有广泛的适用性，可以满足不同用户的创意和需求。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/269220?site