当前位置:   article > 正文

Animatediff v3 又又叒更新?阿里商业模特换衣本地化 Animate Anyone和Outfit Anyone 开源

animatediff v3

商业模特换衣本地化内测包

一键商业模特换衣,更注重商业化webui的开放性和ComfyUI的专业性不同,WeShop追求易用性和商用性,对于需要高强度的重复工作场景,或者小团队共用局域网显卡的场景,WeShop会更好些。后续也会根据大家的需要继续迭代,争取做成最易用的SD UI。Animate Anyone和Outfit Anyone 开源了PPT,github代码为空。

上期内容回顾7.8kstart 字节杀器magicanimate 本地视频转绘教程

https://humanaigc.github.io/animate-anyone/

图片

在哪下整合包?

UC网盘分享

图片

图片

图片

Animate diff

    Animate diff目前存在了V1.V2版本,在V2的md15版本配置了移轴摄影Lora,目前至少有3种方法可以体验 Animate diff,分别是SD WEBUI,comfyUI,和prompt-travel,其中prompt-travel占显存最低,速度最快,但是属于代码版本,需要有一定代码基础,但是在安装过程中报错大家也是百出,我也总结了报错和解决方案,给大家贴在了飞书群文档内,在本章内容除了介绍V3版本外,还会针对报错做一个补充说明。

图片

在哪下整合包?

存放模型位置

E:\sd-webui-aki\sd-webui-aki-v4\extensions\sd-webui-animatediff\model

V3版本更新

SparseCtrl可以理解为转为视频优化过的Contorlnet,可以通过输入关键帧的深度或者涂鸦图像控制视频按照指定的方式运动和过渡。这个项目一定程度上解决了现在Animatediff生成视频过程中无法控制的问题。

图片

这里我们提供了三个演示推理脚本。需要提前下载相应的 AnimateDiff 模块和社区模型。把运动模块放进去;将 SparseCtrl 编码器放入

图片

.models/Motion_Modulemodels/SparseCtrl

  1. # under general T2V setting
  2. python -m scripts.animate --config configs/prompts/v3/v3-1-T2V.yaml
  3. # image animation (on RealisticVision)
  4. python -m scripts.animate --config configs/prompts/v3/v3-2-animation-RealisticVision.yaml
  5. # sketch-to-animation and storyboarding (on RealisticVision)
  6. python -m scripts.animate --config configs/prompts/v3/v3-3-sketch-RealisticVision.yaml

在此版本中,我们通过域适配器 LoRA 对图像模型进行了微调,以便在推理时具有更大的灵活性。

图片

此外,我们还实现了两个(RGB图像/涂鸦)SparseCtrl编码器,它们可以采用任意数量的条件图来控制生成过程

Domain Adapter 是一个 LoRA 模块,在训练视频数据集的静态帧上训练。此过程在训练运动模块之前完成,有助于运动模块专注于运动建模,如下图所示。在推理中,通过调整域适配器的 LoRA 比例,可以去除训练视频的一些视觉属性,例如水印。若要使用 SparseCtrl 编码器,必须在管道中使用完整的域适配器。

图片

图片

近年来,文本转视频(T2V)的发展,即使用给定的文本提示生成视频,取得了长足的进步。然而,由于空间的不确定性,仅依赖文本提示通常会导致帧构图不明确。因此,研究界利用密集的结构信号(例如,每帧深度/边缘序列)来增强可控性,从而增加推理的负担。在这项工作中,我们提出了 SparseCtrl 来实现对时间稀疏信号的灵活结构控制,只需要一个或几个输入,如图 1 所示。它集成了一个额外的条件编码器来处理这些稀疏信号,同时保持预训练的 T2V 模型不变。所提出的方法兼容各种模态,包括草图、深度图和RGB图像,为视频生成和推广应用(如故事板、深度渲染、关键帧动画和插值)提供了更实用的控制。大量的实验证明了 SparseCtrl 在原始和个性化 T2V 发生器上的泛化。

1.是什么

GPU 内存优化,~12GB VRAM 用于推理

基础显存需要占用12GB左右,拉低分辨率试试其他显存

图片转giff的视频插件可制作giff等等

此扩展以不同的方式实现 AnimateDiff。它不需要您克隆整个 SD1.5 存储库。它还(可能)对 应用了最少的修改,因此如果您不想重新加载模型权重,则无需重新加载。ldm

图片

WebUI 上的批量大小将在内部替换为 GIF 帧号:1 批生成 1 个完整的 GIF。如果要一次生成多个GIF,请更改批号。

批号与批号不同。在 A1111 WebUI 中,批号高于批大小。批号表示顺序步骤的数量,但批大小表示并行步骤的数量。当您增加批号时,您不必太担心,但是当您增加批号(在此扩展中,视频帧号)时,您确实需要担心您的VRAM。使用此扩展时,根本不需要更改批大小。

图片

人物动态化带转场镜头控制~

1.文生图/图生图固定seed

2.转场控制Lora权重设置从0.8-1区别在于提示词需要动态效果相关

3.每次出完第一批需要第二批时重启

V2版本最经典报错

[Bug]: RuntimeError: Expected all tensors to be onthe same device, but found at least two devices, cpu and cuda:0! (when checking argument for argument weight in method wrapper_CUDA___slow_conv2d_forward)

3.怎么玩

1.采样方法选择DDIM

图片

2.最大帧数按着自己显卡速度评估一般不超过24

常见问题

  1. 问:我正在使用阻止谷歌的远程服务器。我该怎么办?

  2. 答:您必须找到一种方法在本地下载运动模块并重新上传到您的服务器。

  3. 问:我需要多少VRAM?

  4. 答:目前,您可以通过 NVIDIA 3090 使用此扩展运行 WebUI。我不能保证 GPU 的任何其他变体。实际VRAM使用情况取决于您的图像大小和视频帧数。您可以尝试减小图像大小或视频帧数以减少VRAM的使用。默认设置消耗 12GB VRAM。稍后将添加更多VRAM信息。

  5. 问:我可以生成视频而不是 GIF 吗?

  6. 答:很遗憾,你不能。这是因为整批图像将通过转换器模块,这会阻止我们按顺序生成视频。我们期待用于视频生成的深度学习的未来发展。

  7. 问:我可以使用 SDXL 生成 GIF 吗?

  8. 答:至少在目前,你不能。此扩展实质上是将多个运动模块注入SD1.5 UNet。它不适用于 SD 的其他变体,例如 SD2.1 和 SDXL。我不确定如果您强制将运动模块添加到 SD2.1 或 SDXL 会发生什么。未来的实验是必要的。

  9. 问:我可以使用此扩展程序来做 gif2gif 吗?

  10. 答:由于 AnimateDiff 的 1 批行为,可能无法支持 gif2gif。但是,我需要与AnimateDiff的作者讨论这个问题。

  11. 问:我可以使用 xformer 吗?

  12. 答:是的,它不会应用于 AnimateDiff。我将尝试其他优化。请注意,xformers 将更改您生成的 GIF。

  13. 问:如何在t2timage部分中重现结果?

  14. 答:您必须将create_random_tensors替换为

  15. torch.manual_seed(<seed>)    from einops import rearrangex = rearrange(torch.randn((4, 16, 64, 64), device=shared.device), 'c f h w -> f c h w')

  16. ,然后重试。A1111 以完全不同的方式生成随机张量。这仅适用于 WebUI < v1.6.0。这部分指令将在我查看新的随机张量生成逻辑的源代码后更新。

  17. 问:V1.2.0 不适用于 img2img。为什么?

  18. 答:我不知道。我会尽快弄清楚原因。

https://github.com/guoyww/animatediff/

AnimateDiff [2023/09/25] 发布 MotionLoRA 及其模型动物园,实现摄像机移动控制!请下载 MotionLoRA 模型(每个模型 74 MB,可从 Google Drive / HuggingFace / CivitAI 获取)并保存到 models/MotionLoRA 文件夹。例如

图片

图片

图片

获取 lora 模型:使用 A1111 根据自己喜欢的图片集训练 lora 模型(例如,教程英文、日文、中文)或从 Civitai 下载 Lora 模型。

为 Lora 模型制作动画:使用 gradio 界面或 A1111(例如,英文、日文、中文教程)

结合其他技术发挥创意,如超分辨率、帧插值、音乐生成等。

图片

报错解决

图片

图片

图片

超多AI合集已整理到https://yv4kfv1n3j.feishu.cn/docx/MRyxdaqz8ow5RjxyL1ucrvOYnnH

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/388452
推荐阅读
相关标签
  

闽ICP备14008679号