当前位置:   article > 正文

语音驱动AI人脸表情

语音驱动AI人脸表情

目录

语音驱动3d模特表情

GasusianTalker没有开源预训练

unity捏脸工程

BIWI vocaset模板下载:

mesh加载

faceDiffuser

audio2face

DiffSpeaker

cvpr2023 CodeTalker

EmoTalk 可以推理,没有训练代码

FaceFormer 语音驱动 3D人脸动画

预训练下载地址

MODA 基于人脸关键点的语音驱动单张图数字人生成(ICCV2023)

语音驱动2d图像动起来

阿里 emo

sadTalker 从音频中生成3DMM的头部姿势和表情

 AniTalker

wav2lip

Easy-wav2lip

audio2face torch

测试代码有bug,修改之后的:

Media2Face 还没开源 


语音驱动3d模特表情

GasusianTalker没有开源预训练

GitHub - KU-CVLAB/GaussianTalker

unity捏脸工程

https://download.csdn.net/download/u014361280/12096164

BIWI vocaset模板下载:

https://download.csdn.net/download/jacke121/89222783

mesh加载

  1. if cfg.dataset == "BIWI":
  2. template_file = os.path.join(cfg.data_root, "BIWI.ply")
  3. elif cfg.dataset == "vocaset":
  4. template_file = os.path.join(cfg.data_root, "FLAME_sample.ply")
  5. print("rendering: ", test_name)
  6. template = Mesh(filename=template_file)

faceDiffuser

GitHub - uuembodiedsocialai/FaceDiffuser

依赖项:

需要版本tokenizers==0.11

安装报错error: can't find Rust compiler

audio2face

https://github.com/FACEGOOD/FACEGOOD-Audio2Face/tree/main

这个是TensorFlow平台,有演示demo,训练代码,没有发现数据集

DiffSpeaker

GitHub - theEricMa/DiffSpeaker: This is the official repository for DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion Transformer

cvpr2023 CodeTalker

GitHub - Doubiiu/CodeTalker: [CVPR 2023] CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior

EmoTalk 可以推理,没有训练代码

https://github.com/psyai-net/EmoTalk_release/tree/main

训练代码是faceformer

FaceFormer 语音驱动 3D人脸动画

预训练下载地址

GitHub - psyai-net/SelfTalk_release: This is the official source for our ACM MM 2023 paper "SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend 3D Talking Faces""

FaceFormer阅读笔记-CSDN博客

[audio2face]FaceFormer: 基于Transformers的,语音驱动的3D人脸动画生成 - 知乎

直观感受:

  1. 输入raw audio,人的语音,在线的或者录音好的;
  2. 输出=一帧一帧的人脸,一秒应该是输出24帧或者更多帧;
  3. faceformer是采用自回归的结构,即前面的若干frame(图像的frame),会参与到后续的frames的生成上来。
  4. 眼球没有画出,看来重点在于面部肌肉和嘴型的变化,而且没有舌头可见。。。

GitHub - psyai-net/EmoTalk_release: This is the official source for our ICCV 2023 paper "EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation"

MODA 基于人脸关键点的语音驱动单张图数字人生成(ICCV2023)

【数字人】2、MODA | 基于人脸关键点的语音驱动单张图数字人生成(ICCV2023)_moda face-CSDN博客

语音驱动2d图像动起来

阿里 emo

sadTalker 从音频中生成3DMM的头部姿势和表情

根据音频驱动图片动起来

GitHub - OpenTalker/SadTalker: [CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

数字人解决方案— SadTalker语音驱动图像生成视频原理与源码部署_sadtalker 调参-CSDN博客

 AniTalker

没开源

AniTalker是由来自上海交大X-LANCE实验室和思必驰AISpeech的研究人员推出的一个对口型说话视频生成框架,能够将单张静态人像和输入的音频转换成栩栩如生的动画对话视频。该框架通过自监督学习策略捕捉面部的复杂动态,包括微妙的表情和头部动作。AniTalker利用通用运动表示和身份解耦技术,减少了对标记数据的依赖,同时结合扩散模型和方差适配器,生成多样化和可控制的面部动画,可实现类似阿里EMO和腾讯AniPortrait的效果。

wav2lip

Easy-wav2lip

audio2face torch

GitHub - xtliu97/audio2face-pytorch: Pytorch implementation of audio generating face mesh or blendshape models, including Aduio2Mesh, VOCA, etc

好像没有预训练

测试代码有bug,修改之后的:

main.py

  1. import numpy as np
  2. import cv2
  3. from utils.facemesh import FaceMesh
  4. from utils.renderer import Renderer, images_to_video
  5. if __name__ == "__main__":
  6. texture_mesh = FaceMesh.load("assets/FLAME_sample.obj")
  7. renderer = Renderer(texture_mesh)
  8. verts = np.load("assets/verts_sample.npy")
  9. rendered_images = renderer.render(verts)
  10. out='output'
  11. os.makedirs(out,exist_ok=True)
  12. images_to_video(rendered_images, out)

Media2Face 还没开源 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/827983
推荐阅读
相关标签
  

闽ICP备14008679号