前言
在当前的数字时代,人工智能技术在各行各业中发挥着越来越重要的作用,特别是在媒体和娱乐领域。最近,快手科技引起了广泛关注,因为它开源了一个名为LivePortrait的先进技术项目,截至2024.7.23
该项目已在GitHub上获得超过 7.5K Star,显示出其广泛的受欢迎程度和技术影响力。
介绍
近日,快手可灵大模型团队开源了名为LivePortrait的可控人像视频生成框架,该框架能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上,生成极具表现力的视频结果。如下动图所示:
如图示例:
网友测试LivePortrait:
快手开源的LivePortrait对应的论文题目为:
Portrait Animation aims to synthesize a lifelike video from a single source image, using it as an appearance reference, with motion (i.e., facial expressions and head pose) derived from a driving video, audio, text, or generation.
译文:肖像动画旨在从单一源图像合成逼真的视频,使用它作为外观参考,运动(即面部表情和头部姿势)来自驾驶视频,音频,文本或生成。
并且,LivePortrait发布即可用,秉承快手风格,论文、主页、代码一键三连。LivePortrait一经开源,就得到了HuggingFace首席执行官Clément Delangue的关注转发,首席战略官 Thomas Wolf还亲自体验了功能,厉害了!
同时,LivePotrait获得了开源社区的广泛关注,短短三周多时间左右,在GitHub上总计收获了7.5K Stars,674 Forks,91 Issues&PRs,获得广泛好评,关注仍在持续增长中:
更多资源信息,可以查看:
- 代码地址: https://github.com/KwaiVGI/LivePortrait
- 论文链接: https://arxiv.org/abs/2407.03168
- 项目主页: https://liveportrait.github.io/
- HuggingFace Space一键在线体验: https://huggingface.co/spaces/KwaiVGI/LivePortrait
LivePortrait的核心技术
LivePortrait是一种基于深度学习的技术,能够实现高效准确的表情和姿态迁移。这意味着可以将一个人的面部表情和头部姿态实时地转移到另一个人的照片或视频中,无论原始和目标面部如何不同。
该技术主要依赖于几个关键的机器学习模型,包括面部识别、姿态估计、以及图像处理算法。通过这些模型,LivePortrait可以识别并解析输入图像中的面部特征和表情信息,然后将这些信息应用到另一张面部图像上,实现逼真的表情和姿态复制。
LivePortrait的模型训练过程采用了两阶段的方法,以确保表情和姿态迁移的准确性和高效性。这种分阶段的训练方法不仅优化了模型的性能,还提高了其在实际应用中的灵活性和适应性。
第一阶段:基础模型训练
在第一阶段,目标是训练一个基础的深度学习模型,该模型能够精确地识别和解析面部的关键特征和表情。这一阶段通常包括以下步骤:
- 数据收集:收集大量的面部图像数据,这些数据需要涵盖多种面部表情、不同的光照条件以及多样的人种特征。数据的多样性是训练成功的关键。
- 预处理:对收集到的图像进行预处理,包括归一化、裁剪和增强等,以提高训练效率和模型的泛化能力。
- 特征学习:使用卷积神经网络(CNN)或其他适合的深度学习框架来学习图像中的面部特征。这一步骤是为了让模型能够在不同的输入图像中准确地识别关键面部特征。
- 表情编码:开发算法来编码面部表情,将表情转换为一种可以被模型理解和处理的数学表示形式。
第二阶段:贴合和重定向模块训练
第二阶段的训练聚焦于提高模型在具体应用中的表现,特别是如何将捕获的表情和姿态贴合到另一个人的面部上。这一阶段的关键步骤包括:
- 贴合训练:在这一步,模型学习如何将源面部的表情和姿态贴合到目标面部上。这需要模型能够处理不同面部结构之间的差异,并进行适当的调整以确保迁移后的表情看起来自然。
- 重定向调整:为了使表情迁移更加逼真,模型还需要训练一个重定向模块,该模块负责调整细节,确保表情在不同的面部结构上能够正确表达。这包括调整眼睛、嘴巴和其他面部特征的位置和大小,以匹配目标面部的比例和表情动态。
- 损失函数优化:在这一阶段,开发者会特别关注优化损失函数,以确保模型在训练过程中能够有效地学习如何进行准确的表情和姿态迁移。通常会使用多任务学习
LivePortrait不仅对人像具有良好的泛化性,当在动物数据集上微调后,对动物肖像也可进行精准驱动。
应用领域
LivePortrait 的潜在应用非常广泛,包括但不限于:
- 娱乐产业: 在电影、视频游戏和在线娱乐中,可以用于角色的表情动态制作,提高生产效率和视觉效果。
- 广告业: 调整广告中人物的表情以适应不同文化和市场的需求。
- 虚拟现实: 提升虚拟现实体验的真实感,通过真实的人类表情和姿态增加用户的沉浸感。
- 远程教育和会议: 改善视频通信的互动性和表达性,使远程交流更加自然和高效。
最后
LivePortrait的相关技术点,已在快手的诸多业务完成落地,包括快手魔表、快手私信、快影的AI表情玩法、快手直播、以及快手孵化的面向年轻人的噗叽APP等,并将探索新的落地方式,持续为用户创造价值。此外,LivePortrait会基于可灵基础模型,进一步探索多模态驱动的人像视频生成,追求更高品质的效果。