当前位置:   article > 正文

开源AI项目爆火!大叔秒变少女,强大且开源的可控人像AI视频生成 LivePortrait 本地部署教程,以及Llama 3.1 最新开源大模型!全球最大、功能最强大的开放式基础模型,附免费下载链接!_llama 3.1 下载

llama 3.1 下载

开源AI项目爆火!大叔秒变少女,强大且开源的可控人像AI视频生成 LivePortrait 本地部署教程,以及Llama 3.1 最新开源大模型!全球最大、功能最强大的开放式基础模型,附免费下载链接!

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

根据一张静态图片生成视频或模拟视频中人物动作,主要涉及以下几个实现原理和技术方案:

实现原理:

  1. 图像分割

    • 首先对静态图片进行分析,区分前景(如人物)和背景。
  2. 关键点检测

    • 使用计算机视觉技术检测图片中人物的关键点,如头部、肩膀、肘部、手腕、髋部、膝盖和脚踝。
  3. 姿态估计

    • 估计人物的姿态,确定身体各部分的空间位置和方向。
  4. 运动建模

    • 根据姿态估计结果,对人物的运动进行建模,预测其在视频中的动作。
  5. 图像合成

    • 将分割出的前景与背景重新合成,确保在生成的视频帧中人物与背景的一致性。
  6. 时间序列预测

    • 利用时间序列预测技术,生成连续的视频帧。

技术方案:

  1. 基于深度学习的图像生成

    • 使用生成对抗网络(GANs)或变分自编码器(VAEs)生成逼真的图像序列。
  2. 姿态驱动的动画

    • 利用已知的姿态序列作为输入,通过神经网络预测中间帧的姿态,进而生成动画。
  3. 3D重建与动画

    • 将2D图像转换为3D模型,然后使用3D动画技术模拟人物动作。
  4. 光流法

    • 通过分析图像序列中物体的运动方向和速度,预测并生成新帧。
  5. 插值技术

    • 在已知的静态图片之间使用插值技术生成中间帧。
  6. 循环神经网络(RNN)

    • 使用RNN对视频帧进行建模,捕捉时间序列中的动态特征。
  7. 卷积循环生成网络(CR-GAN)

    • 结合CNN的特征提取能力和RNN的时间序列建模能力,生成视频。
  8. 物理模拟

    • 利用物理引擎模拟衣物、头发等随动作变化的物理特性。
  9. 条件变分自编码器(CVAE)

    • 通过编码器将条件信息(如动作标签)编码到潜在空间,然后通过解码器生成相应的图像序列。
  10. 双路网络

    • 一个网络处理图像内容,另一个网络处理运动信息,两者结合生成视频。

详细介绍:

  • 数据集准备

    • 需要大量的图像和视频数据来训练模型,以便模型学习到人物动作和场景变化的规律。
  • 预处理

    • 对输入的静态图片进行预处理,如去噪、标准化等。
  • 模型训练

    • 使用标注好的数据训练深度学习模型,学习如何从静态图片生成动态视频。
  • 动作转移

    • 如果有源动作视频,可以通过动作转移技术将动作应用到静态图片上。
  • 后处理

    • 对生成的视频进行后处理,如颜色校正、模糊去除等,以提高视频质量。
  • 评估与优化

    • 使用定量和定性的指标评估生成视频的质量,并根据反馈优化模型。
  • 用户界面

    • 开发用户友好的界面,允许用户上传静态图片、选择动作、调整参数等。

这些技术方案各有优势和局限性,通常需要根据具体应用场景和需求选择合适的方法。随着深度学习技术的不断进步,从静态图片生成视频的方法也在不断发展和完善。

在这里插入图片描述

1,准备工作,本地下载代码并准备环境,运行命令前需安装git

https://git-scm.com/downloads

git clone https://github.com/KwaiVGI/LivePortrait
cd LivePortrait

# create env using conda
conda create -n LivePortrait python=3.9
conda activate LivePortrait

# install dependencies with pip
# for Linux and Windows users
pip install -r requirements.txt
# for macOS with Apple Silicon users
pip install -r requirements_macOS.txt
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

注意:确保您的系统已安装FFmpeg,包括ffmpeg和ffprobe!

https://ffmpeg.org/download.html

一、下载官方的FFmpeg

访问 FFmpeg的官网链接:https://ffmpeg.org ,然后点击右侧的下载按钮。

在这里插入图片描述

然后找到适合自己系统的版本,比如我选择 Windows 版,如下所示

在这里插入图片描述

接着点击下方的第一个链接:

在这里插入图片描述
进去以后,选择左边的 release builds ,右边出现如下内容:

在这里插入图片描述

选择带 shared 的还是不带 shared 的版本,其实都是可以的。功能是完全一样的。

只不过带 shared 的里面,多了 include、lib 目录。把 FFmpeg 依赖的模块包单独的放在的 lib 目录中。ffmpeg.exe,ffplay.exe,ffprobe.exe 作为可执行文件的入口,文件体积很小,他们在运行的时候,如果需要,会到 lib 中调用相应的功能。

不带 shared 的里面,bin 目录中有 ffmpeg.exe,ffplay.exe,ffprobe.exe 三个可执行文件,每个 exe 的体积都稍大一点,因为它已经把相关的需要用的模块包编译到exe里面去了。

解压后的内容,如下图所示:

在这里插入图片描述

进入 bin 目录,复制 bin 目录路径。

在这里插入图片描述

二、配置环境变量

1、在电脑桌面上,鼠标右键我的电脑,接着选择里面的属性,如下所示:

在这里插入图片描述

3、打开后点击右侧的高级系统设置

在这里插入图片描述

接着依次点击 高级 -> 环境变量:

在这里插入图片描述

4、在系统变量中,选择里面的 Path

在这里插入图片描述

5、然后点击下方的编辑:在出来的[编辑环境变量]表中,新建一个,最后将刚才复制的 bin 目录路径粘贴进去,保存即可。

在这里插入图片描述

三、验证是否安装成功

在CMD命令终端下,输入: ffmpeg -version,有类似如下版本信息输出,就说明配置成功了!

在这里插入图片描述

当然如果你不需要安装多种版本的ffmpeg,那么在Windows 电脑上,你可以直接将解压的ffmpeg文件放到系统的 system32 目录中去,就不用配置环境变量了。会更简单、方便!


  1. 下载预训练权重
    下载预训练权重的最简单方法是从 HuggingFace 下载:
# first, ensure git-lfs is installed, see: https://docs.github.com/en/repositories/working-with-files/managing-large-files/installing-git-large-file-storage
git lfs install
# clone and move the weights
git clone https://huggingface.co/KwaiVGI/LivePortrait temp_pretrained_weights
mv temp_pretrained_weights/* pretrained_weights/
rm -rf temp_pretrained_weights
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

非海外用户,没有外网环境的朋友,你可以从【Google Drive】或【百度云】网盘下载所有预训练权重。解压并将它们放在 中./pretrained_weights。

确保目录结构如下,或包含:

pretrained_weights
├── insightface
│   └── models
│       └── buffalo_l
│           ├── 2d106det.onnx
│           └── det_10g.onnx
└── liveportrait
    ├── base_models
    │   ├── appearance_feature_extractor.pth
    │   ├── motion_extractor.pth
    │   ├── spade_generator.pth
    │   └── warping_module.pth
    ├── landmark.onnx
    └── retargeting_models
        └── stitching_retargeting_module.pth
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15

3.推理使用

# For Linux and Windows
python inference.py

# For macOS with Apple Silicon, Intel not supported, this maybe 20x slower than RTX 4090
PYTORCH_ENABLE_MPS_FALLBACK=1 python inference.py
  • 1
  • 2
  • 3
  • 4
  • 5

如果脚本成功运行,你会得到一个名为 的输出mp4文件animations/s6–d0_concat.mp4。此文件包含以下结果:驾驶视频,输入图像或视频,以及生成的结果。

在这里插入图片描述

或者您可以通过指定-s和参数-d来更改输入

# source input is an image
python inference.py -s assets/examples/source/s9.jpg -d assets/examples/driving/d0.mp4

# source input is a video ✨
python inference.py -s assets/examples/source/s13.mp4 -d assets/examples/driving/d0.mp4

# more options to see
python inference.py -h
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

参照视频自动裁剪

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/912141
推荐阅读
相关标签