当前位置:   article > 正文

Datawhale X 魔搭 AI夏令营第四期AIGC方向笔记task1

Datawhale X 魔搭 AI夏令营第四期AIGC方向笔记task1

文生图的历史

发展阶段

发展介绍

早期探索

(20世纪60年代-20世纪90年代)

文生图的概念最早出现于计算机视觉和图像处理的早期研究中。

早期的图像生成技术主要依赖于规则和模板匹配,通过预定义的规则将文本转换为简单的图形。

然而,由于计算能力和算法的限制,这一阶段的技术能力非常有限,生成的图像质量较低,应用场景也非常有限。

基于统计模型的方法

(2000年代)

进入2000年代,随着统计模型和机器学习技术的发展,文生图技术开始得到更多关注。

研究者们开始利用概率图模型和统计语言模型来生成图像。尽管这一阶段的技术在生成图像的多样性和质量上有了一定提升,但由于模型的复杂性和计算资源的限制,生成的图像仍然较为粗糙,不够逼真。

深度学习的崛起

(2010年代)

 

2010年代是文生图技术发展的一个重要转折点。随着深度学习,尤其是卷积神经网络(CNN)和生成对抗网络(GAN)的发展,文生图技术取得了突破性进展。2014年,Goodfellow等人提出的GAN模型通过生成器和判别器的对抗训练,极大地提升了图像生成的质量。随后,各类变种GAN模型被提出,如DCGAN、Pix2Pix等,使得文生图技术在生成逼真图像方面达到了前所未有的高度。41e520c89c584271b8e5d7e605197c65.png

大规模预训练模型

(2020年代)

进入2020年代,大规模预训练模型如OpenAI的CLIP、DALL-E以及Stable Diffusion等的出现,标志着文生图技术进入了一个新的时代。

CLIP通过大规模的文本和图像配对数据训练,能够理解和生成高度一致的文本和图像;DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力,使得通过简单的文本描述生成高质量、复杂图像成为可能。

这些技术的应用范围从艺术创作、广告设计到辅助医疗诊断,展现了广泛的商业价值和社会影响力。

 

文生图基础知识介绍

文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。

0ce9a53895fd4e1286ffcf81f6579537.png

接下来,我们简单了解下提示词、lora、ComfyUI和参考图控制这些知识点。

提示词

提示词很重要,一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家

举个例子

promts】Beautiful and cute girl, smiling, 16 years old, denim jacket, gradient background, soft colors, soft lighting, cinematic edge lighting, light and dark contrast, anime, super detail, 8k

负向prompts】(lowres, low quality, worst quality:1.2), (text:1.2), deformed, black and white,disfigured, low contrast, cropped, missing fingers

Lora

Stable Diffusion中的Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。

 

ComfyUI

ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。

0938099259c54082a158ffb574b5fbfe.png

在ComfyUI平台的前端页面上,用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。

 

参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。

参考图控制类型

简介

示例

OpenPose姿势控制

 

输入是一张姿势图片(或者使用真人图片提取姿势)作为AI绘画的参考图,输入prompt后,之后AI就可以依据此生成一副相同姿势的图片

dccf0c89930947898e217904e764d27f.png2397760a566a41f78e488d1880426210.png

Canny精准绘制

输入是一张线稿图作为AI绘画的参考图,输入prompt后,之后AI就可以根据此生成一幅根据线稿的精准绘制。

abce78455c7c4fe6ba6f80e7628ced74.png

c33171bedea44c708b4346dcdcfbf67d.png

Hed绘制

 

Hed是一种可以获取渐变线条的线稿图控制方式,相比canny更加的灵活。

6e7691cf906043d6bf92b9dd0fae594d.png

6172f18eb7ee48949ceef4ab0404b5d3.png

深度图Midas

输入是一张深度图,输入prompt后,之后AI就可以根据此生成一幅根据深度图的绘制。

c04ab2768ce34c82aa0292f3797eece3.png

2a52d2d2b28c46598427e52b33c8acc1.png

颜色color控制

通过参考图控制和颜色控制,实现更加精准和个性化的图像生成效果。

 

0aae5df452fd4dd1b2f20f044d5ad9d3.png

573297bead88444898ffd2420634dc39.png

现在,让我们来开展实践吧!开始通过代码完成模型微调&AI生图实践!

小白零基础 30 分钟 速通指南

Step0:开通阿里云PAI-DSW试用

链接:阿里云免费试用 - 阿里云

开通PAI-DSW 试用 ,获得 5000算力时!有效期3个月!

  • 开通免费试用

    d4122863a1154b83acf0eca3bc0b20d2.png

fed2db2536024746916e06a9e7ca9444.png

e5c61304481047c3af76db16215e9e82.png

  • 魔搭社区进行授权

    链接:https://www.modelscope.cn/my/mynotebook/authorization

    如果这一步授权失败,可跳过此步骤,继续往下进行

    6aa1ad34d40d4b609d92a55a53420852.png

ca890c38bf964232b938713a7feede4f.png

d85ac6fced4747808bfee19009699b25.png

f8f0caca36744adf930b7268b673972d.png

  • 新用户需要先注册 & 绑定阿里云账号

    6a1eb66930834b2682ca7e5b20d10d19.png

d9aa57663467452bbaa7561d2c257c4e.png

8eee1d902c78445b9ff8e0c26ea39284.png

f92e6010b37f4985901522611ba52351.png

05c014330bb44f9391c8d8f785f68633.png

edcdc1e0275d40ce9bb9bc2d12fdb881.png

  • 新用户还需要完成阿里云账号的实名认证,直接完成即可

Step1:报名赛事!(点击即可跳转)

赛事链接:https://tianchi.aliyun.com/competition/entrance/532254

点击报名比赛,即可报名成功

52e64d0b889c438a970d0ac7093ba26d.png

b9e3445dbc1a4268b0a9611f03e4bf7d.png

Step2:在魔搭社区创建PAI实例!(点击即可跳转)

链接:https://www.modelscope.cn/my/mynotebook/authorization

创建实例,启动!

如果在上一步授权失败,可到阿里云控制台创建 & 打开实例,具体步骤详见下方子步骤

5462da48f363440797aff21df66a7ba2.png

982a8048ad484c739faa15b840e6da67.png

eb34d18bbde949d282235b491dc39fa2.png

731ce47597a943c49e8cd998d40e5694.png

aeb64fb4886948ed871b68cf72d2a826.png

58cfbb9762d349e1937e1e1772cfde12.png

102e1e0ede614e4e91d8258bb0567ca4.png

  • 如果 在魔搭无法授权 或 点击【打开】无法打开,可到阿里云控制台创建 & 打开实例

    c3b0ee366d904d5ead9e7351082557f3.png

98b58876577347c6a57115a7e7add4ee.png

  • 创建实例

    8658c9bf13ca4bd78739d3bd0cfbd5b1.png

4751fc3cdd3a4241aeb1d5456ff4dc75.png

58d98afc9ce1407aa651d92728e2af3d.pngb5c21eb5711c495a813c1c7ed583f79c.png

  • 打开实例

    6bf09b1845564a6688657de6549d522f.png

a8bf4733d9584e1dab3c397dc507bc63.png

  • 如果之前试用的额度已经过期,可使用魔搭的免费Notebook实例

    048f25a3727b41f987e768294d75f558.png

f1a6dc1e69a84ca3898cc940568bb3ad.png

Step3:30 分钟体验一站式 baseline!

下载baseline文件(大约需要2分钟)

  1. git lfs install
  2. git clone https://www.modelscope.cn/datasets/maochase/kolors.git

8e6f3c58e2dd406b8f9207e1b9aac54b.png

a167bc7aa64947b2bd4a7bb14aba4a6d.png

  1. 进入文件夹,打开baseline文件

  2.  

  3. f996afb00fbb4eca86f44a3032f1f139.png

0081ac9824c343da8b03d153d313ad47.png

  1. 安装环境,然后重启kernel

  1. 安装 Data-Juicer 和 DiffSynth-Studio
  2. Data-Juicer:数据处理和转换工具,旨在简化数据的提取、转换和加载过程
  3. DiffSynth-Studio:高效微调训练大模型工具

62032534eda2460fbea8ffff76774214.png

3268086af6474edcb587daf1520d4f4b.png

  1. 调整prompt,设置你想要的图片风格,依次修改8张图片的描述(可选

正向描述词:你想要生成的图片应该包含的内容

反向提示词:你不希望生成的图片的内容

4d6cac03171f44aea3fce5d5cb83d87d.png

  1. 依次顺序运行剩余的代码块,点击代码框左上角执行按钮,最终获得图片(大约需要20分钟

    下面的代码块按照功能主要分成这几类

    1. 使用Data-Juicer处理数据,整理训练数据文件

    2. 使用DiffSynth-Studio在基础模型上,使用前面整理好的数据文件进行训练微调

    3. 加载训练微调后的模型

    4. 使用微调后的模型,生成用户指定的prompt提示词的图片

9fe3a76679f347208a3fb3b99d8808f3.png

Step4:微调结果上传魔搭(点击即可跳转)

链接:https://www.modelscope.cn/models/create

  1. 移动结果文件

    创建terminal,粘贴如下命令,回车执行

     

    mkdir /mnt/workspace/kolors/output & cd cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/ cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/

    d358afc630ed45fd940c9ef39a7a5bc8.png
  1. 下载结果文件

    双击进入output文件夹,分别下载两个文件到本地

    949a4fbd200e4564960eeb2023b69e0c.png

80865687d9704cd6b24d57f2fd9d1700.png

  1. 创建并上传模型所需内容

      点击魔搭链接,创建模型,中文名称建议格式:队伍名称-可图Kolors训练-xxxxxx

    4c5f3552bd4348b8b608a6f739329f69.png

dae1bbdf103e4b778b58b249d1b65ebe.png

关闭PAI实例!!!!(点击即可跳转)

链接:https://www.modelscope.cn/my/mynotebook/authorization

运行完成后,别忘了回到魔搭,【关闭】实例,否则会一直消耗你的试用额度!

每小时消耗大概7个试用额度!(总共5000个,有效期三个月)

c7c37a1ffb68420db2e3f4b5af833024.png

恭喜你生成了自己的第一个图片!!!

参考链接:Datawhale (linklearner.com)

 

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号