DataWhale夏令营——AIGC技术

作者：小桥流水78 | 2024-08-13 14:05:45

踩

一、任务流程

第一步——开通阿里云PAI-DSW试用

1.进入阿里云社区

阿里云社区：阿里云免费试用 - 阿里云 (aliyun.com)

2. 登录或者注册自己的阿里云账号：

3. 点击立即试用

领取成功之后关闭页面即可。

第二步——进入魔搭社区授权

魔搭社区：我的Notebook · 魔搭社区 (modelscope.cn)

第三步——报名赛事

可图Kolors-LoRA风格故事挑战赛_创新应用大赛_天池大赛-阿里云天池的赛制 (aliyun.com)

第四步——在魔搭社区创建PAI实例

创建完成之后返回魔搭社区，如下图所示，就已经绑定好实例了

二、AIGC知识介绍

我们需要安装 Data-Juicer 和 DiffSynth-Studio来执行运行环境的代码块

Data-Juicer：数据处理和转换工具。
DiffSynth-Studio：微调训练大模型工具。

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

提示词（prompt）：提示词的主要作用是引导AI理解用户的意图，并根据这个意图生成相应的内容。AI会根据提示词中的关键词和上下文信息来生成文本、图像、音频或其他形式的内容。

Lora：Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

ComfyUI：ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

在ComfyUI平台的前端页面上，用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。

ControlNet：ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

三、扩散模型简介

随着人工智能技术的蓬勃发展，AIGC已逐渐成为用户实现多样化任务的得力助手。其中，DDPM作为继GAN之后又一主流的AIGC模型，频繁出现在各类研究文献中，其影响力可见一斑。DDPM本质上属于扩散模型(diffusion)的范畴，不仅具备从噪声中生成图片的能力，还能对图片进行去噪处理，为图像处理领域带来了新的突破。

扩散模型通过定义一个马尔科夫过程来逐步向数据中引入随机噪声，随后，通过学习逆扩散过程，这些模型能够成功地恢复原始数据，进而从噪声中构建出所需的数据样本。与GAN类似，DDPM在经过大量数据训练后，无需任何文本输入即可生成高质量的图像，这一特性使其在图像生成领域展现出巨大的应用潜力。

DM的优化版本稳定扩散模型(SD)是ControlNet网络架构的基础模型，ControlNet 更进一步地在扩散模型上增加条件控制机制，例如用户可以输入草图文本等内容，使生成图像更符合用户期望。

ControlNet 通过锁定大型预训练文本到图像扩散模型的参数，并制作其编码层的可训练副本，实现了在不改变原始模型参数的前提下引入条件控制。这种架构旨在将大型预训练模型作为学习各种条件控制的强大支柱，并通过零卷积层连接原始模型和可训练副本，以确保在训练初期不会引入有害噪声。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小桥流水78/article/detail/975275