赞
踩
大家好,我是程序员晓晓
去年西安交通大学开源了SadTalker模型,图片+音频可以生成视频,也就是会说话、会唱歌的数字人。这是Stable Diffusion的插件,网上也有很多安装教程了,看了教程还是要自己亲自装一次才更熟悉,数字人的效果在文末。
这是安装成功之后的界面
SadTalker会让照片的人像开口说话,我们称之为照片数字人,部署这套工具,需要准备哪些软硬件。
(1)一台有GPU的电脑主机,我用的是带有3060(12G显存)的,I5的CPU(很老),16G内存,装Windows 10专业版操作系统。
(2)部署Stable Diffusion,这个在前面的文章中有介绍,玩AI绘画SD是必须要用的,这个建议部署起来,后面我们会介绍很多这个平台的插件,国内很多画图AI工具也是以这个为基础。
(3)下载SadTalker模型、ffmpeg软件。请看文末扫描获取下载链接下载。
接下来开始安装,安装步骤也比较简单,按照下面步骤就可以。
1、在Stable Diffusion WebUI上安装SadTalker插件。在Extensions中,进入Install from URL选项卡,
在URL栏中输入https://github.com/winfredy/sadtalker,然后点击Install。(如无法通过链接安装,请看文末获取本地插件安装包)
Install成功之后,在Installed选项卡中,点击Apply and restart UI,稍等片刻,会看到SadTalker菜单。
2、模型安装。把我们下载的模型放在相应位置就可以了。
(1)把这些*.pth和*.pth.tar文件拷贝到stable-diffusion-webui\extensions\SadTalker\checkpoints目录,如果没有chekpoints目录,需要先创建目录。
(2)把BFM_Fitting和hub以及dat文件拷贝到stable-diffusion-webui\extensions\SadTalker目录。
3、安装ffmpeg,解压ffmpeg的压缩包,然后在环境变量Path中添加ffmpeg的bin路径。我在解压ffmpeg之后,放在了D盘,就可以这么设置。
以上安装完成,接下来就可以试试能否正常生成数字人,在生成数字人之前,我们需要先生成一段语音或者歌声。
生成音频可以用TTS或克隆自己声音等方式,如果大家感兴趣,可以私信,到时专门出个如何克隆自己的声音。这里我们可以用一个在线tts生成音频http://www.ttsgpt.cn/。
音频和图片都准备好了之后,就可以在WebUI界面上上传图片、音频,参数选择,这里说下preprocess参数,默认是只有一个头部,选择full、extfull等参数可以展示完整的人像。
最后来看看效果,对嘴型还差点意思,这也是现在照片数字人正在努力改进的。如果你也想自己动手搭建,那就试试吧。
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。