赞
踩
翻译: 简称 SD,使用词典翻译为:稳定扩散。
官方 Stable Diffusion 由 Stability AI 发布,使用 Python 语言开发的图像生成深度学习模型。
官方介绍: Stable Diffusion是一种基于扩散过程的图像生成模型,可以生成高质量、高分辨率的图像。它通过模拟扩散过程,将噪声图像逐渐转化为目标图像。这种模型具有较强的稳定性和可控性,可以生成具有多样化效果和良好视觉效果的图像。
GPT-4 给出的解释如下: Stable Diffusion是一种先进的深度学习模型,专注于生成高质量的图像。它属于生成对抗网络(GANs)的一种变体,但更具体地,它使用了变分自编码器(VAEs)和Transformer架构的组合,以实现在给定文本提示的情况下生成图像的能力。这种模型由CompVis团队和其他合作者开发,并于2022年公开发布。
Stable Diffusion的核心特点包括:
文本到图像生成:用户可以提供简短的文本描述(例如,“一只穿着宇航服的猫在月球上”),模型则能根据这些描述生成相应的图像。这种能力使其在艺术创作、游戏设计、广告和其他需要视觉内容的领域中非常有用。
高度定制化的输出:通过调整输入文本或模型的参数,用户可以控制生成图像的风格、细节等方面,从而获得高度定制化的输出。
开源和可访问性:Stable Diffusion的开源性质意味着研究人员、开发者和艺术家可以自由使用、修改和集成此模型,促进了人工智能领域的创新和应用。
高效性:与其他图像生成模型相比,Stable Diffusion在保持高质量输出的同时,对计算资源的需求相对较低,这使得它能够在不具备顶级硬件的设备上运行。
Stable Diffusion的应用场景非常广泛,包括但不限于:
SD 也是有多个版本,依旧目前官网 GITHUB NEWS 来看,截止 2024年01月30日,SD的当前版本为 V2,SD2.1-768
由 AUTOMATIC1111 发布的一个基于 Gradio 库的浏览器界面,用于 Stable Diffusion。
这样描述也就没有什么可说了,SD 的使用是需要通过命令方式进行的,有了界面,相对而言适合普通人操作了。
笔者说明: Stable Diffusion web UI 的安装过程主要在于 git,如果你是使用梯子或者代理安装,那么你可能需要通过下列命令设置一下本地 git 的代理:
git config --global http.proxy http://127.0.0.1:10809
其中的代理地址可以从系统代理中查看,win11中:设置-网络和Internet-手动设置代理。使用完成后,通过下列命令重置:
git config --global --unset http.proxy
git config --global --unset https.proxy
下面的命令是用于查看 git 代理情况的:
git config --global --get http.proxy
由 Lvmin Zhang 发布的一个基于 Gradio 库的图像生成软件,这里和 Stable Diffusion web UI 不同,并不是为 Stable Diffusion 服务的浏览器界面。
作者在项目中这样说的:
English:
Fooocus is a rethinking of Stable Diffusion and Midjourney’s designs:
- Learned from Stable Diffusion, the software is offline, open source, and free.
- Learned from Midjourney, the manual tweaking is not needed, and users only need to focus on the prompts and images.
中文:
Foocus 是对 Stable Diffusion 和 Midjourney 设计的重新思考:
- 从 Stable Diffusion 学习,该软件是离线的,开源的,免费的。
- 从 Midjourney 了解到,不需要手动调整,用户只需要关注提示和图像。
从这个描述中能猜出一点,Fooocus 应该也是基于 Stable Diffusion 实现的,但是对 Stable Diffusion 的功能做了二次封装,使得它的使用更简便。
笔者说明:
1、安装
Fooocus 的初次使用及初次使用某个功能时,都会触发对应的 Models 下载(可能也是其他什么文件,笔者暂时只知道是下载了一些文件),下载这些文件是需要梯子或者代理的,但是有意思的事,如果你开启了梯子或者代理,Fooocus可能无法运行,因为会报错:
Expecting value: line 1 column 1 (char 0)
这时候的可以通过下列几个方式:
当然了,上面的方法,第一个最靠谱……不是吗!
2、汉化
直接在 Fooocus 官方 github 下的 Issues 中搜索 cn 关键词,截止目前(2024-01-30)有人申请合并过,但是作者好像没有同意,可以下载这个 cn.json 并放到 language 文件夹中,如果遇到缺少的英文汉化的情况,界面会依旧显示英文,可以自行在 cn.json 中补全
Midjourney 大家熟知的图像人工智能工具,收费,而且不便宜,Midjourney后台应该也具有自己的【图像生成深度学习模型】,由于是商业工具,公开信息相对有限,只能合理推测,它类似于其他先进的文本到图像生成技术,比如OpenAI的DALL·E或Stability AI的Stable Diffusion,依赖于深度神经网络来理解文本输入并生成相应的图像。
Midjourney的图像生成工具展示了深度学习在艺术和创意表达方面的潜力,允许用户探索和实现他们的创意想法,无论是用于个人项目、艺术创作还是商业应用。尽管Midjourney如何具体实现其技术的细节未完全公开,但它的存在无疑加强了AI在图像生成领域的应用和影响力。
这样一来,大家应该就知道这两者是什么样的相同的和不同点了。
相同点:
不同的:
经过训练的图片合集,被称作模型,也就是chekpoint,体积较大,一般真人版的单个模型的大小在7GB左右,动漫版的在2-5个G之间。早期的CKPT后缀名是ckpt,如今新的CKPT后缀名都是safetensors。
Fooocus 的 CheckPoint 目录为:\Fooocus\models\checkpoints Web UI 的 Lora 目录为:stable-diffusion-webui\models\Stable-diffusion
是一种体积较小的绘画模型,是对大模型的微调。与每次作画只能选择一个大模型不同,lora模型可以在已选择大模型的基础上添加一个甚至多个。一般体积在几十到几百兆左右。后缀也是safetensors。比如有专门绘制人体部位的,比如专门画面部或者眼睛的 Lora。
Fooocus 的 Lora 目录为:\Fooocus\models\loras Web UI 的 Lora 目录为:stable-diffusion-webui\models\Lora Web UI 还可以通过安装扩展 Kohya-ss Additional Networks script 的方式,然后把 lora 放到 extensions\sd-webui-additional-networks\models\lora 目录,这种方法会把 Lora 的配置项单独显示到页面上,而不是通过提示词中的 <lora:xxxx_v1.0:1.2>
方式配置权重
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。