赞
踩
一款图像和音频深度学习模型,实现头像照片配合音频生成视频
详细对应参数可看文章最后参数图片
功能点 | 可行性 | 备注 |
---|---|---|
加载图片 | OK | |
加载音频 | OK | |
加载参考视频 | OK | 可以学习视频里的面部表情和头部动作幅度 |
自动截取头像 | OK | |
截取精细头像 | OK | |
全身 | OK | |
精细全身 | OK | |
上半身 | OK | |
头像左右转动 | OK | |
头像上下转动 | OK | |
视频增强 | OK | |
表幅度调节 | OK | 值越大,表情越夸张 |
本教程基于ubantu系统,并使用N卡,A卡目前没测试
基础所需软件安装,这些基础的不再一一叙述,自行百度安装吧,显卡驱动需要安装你显卡对应的,cuda也要安装对应版本
显卡驱动,Git, ffmpeg,Anaconda,cuda,
克隆项目:
git clone https://github.com/OpenTalker/SadTalker.git
进入源码文件夹
cd SadTalker
创建conda虚拟环境
conda create -n sadtalker python=3.9 注:python版本最好为3.8或者3.9
激活虚拟环境
conda activate sadtalker
安装torch,一个深度学习框架 注:cu113是对应的cuda版本,如果你得cuda版本是12.2,就写cu122
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
安装项目运行所需的必要依赖组件 注:后面可以指定自己想要的pip源地址,下面为清华源,如需其他可自行更该
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/
模型下载以及设置
可从github上搜索下载stdtalker相关模型,或者去我整理的[百度网盘](https://pan.baidu.com/s/1iNPQP0PDN0JyoFUqVqEJrQ?pwd=8gyk)下载
创建模型文件夹
在项目根目录下创建checkpoints文件夹,并把下载的模型里的相关模型解压到此文件夹下,下载的weights模型文件放到gfgan/weights文件夹中即可
运行sadtalker源码
①:进入源码文件夹:cd sadtalker
②:进入虚拟环境:conda activate stdtalker
③:运行代码进行推理,examples文件夹内有测试资源,可以加—still参数调整生成效果
python inference.py --driven_audio ./examples/driven_audio/chinese_poem2.wav --source_image ./examples/source_image/full_body_2.png --result_dir ./examples/ref_video --still --preprocess full --enhancer gfpgan
④:运行过程中如有报错,请自行解决吧,不同人部署的情况不一样,这个没办法...
主要参数说明
–-driven_audio:音频的路径位置,具体到某个音频,wav格式
-–source_image:视频或者图片路径,具体到某个图像或者视频
-–result_dir:结果视频生成的位置,具体到某个文件夹
其余参数一览,或直接访问github项目地址查看
我所做出的效果视频:
正常
左右转动
上下转动
到此,项目搭建结束,祝你玩的愉快,做出自己想要的视频
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。