赞
踩
目前数字人模型效果最好的是ernerf,其借鉴了nerf体渲染的思路,在输入维度上添加了音频特征,通过音频来影响渲染效果(控制嘴型)。
本文基于ernerf模型实现了实时流式数字人,代码已经开源https://github.com/lipku/metahuman-stream
总体流程如下
在没有text输入时,通过输入全0的音频来控制嘴型不动,并且保持视频的连续。
安装时遇到的一些问题
pytorch3d安装不成功
下载源码编译
git clone https://github.com/facebookresearch/pytorch3d.git
python setup.py install
websocket报错
修改python/site-packages/werkzeug/routing/matcher.py,注释websocket_mismatch = True
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。