【AI绘画原理】--扩散模型Diffusion model_ai扩散模型

作者：笔触狂放9 | 2024-04-26 16:38:47

踩

ai扩散模型

如今，midjourney，stable diffusion等大部分AI绘图软件层出不穷
那么，究竟生成图片的原理是什么

以stable diffusion为例，其整个过程大致为

Clip模型——用于接受文字输入，并变成向量输入进去，以找到图像特征

diffusion model扩散模型——在生成图片时候是逆扩散，可以理解把一大堆高斯噪声“变回”图片（潜在空间）

而后是VAE模型，把潜在空间里的图片解码变成真正的图片

由于涉及更深层的知识，今天仅解释Diffusion model扩散模型

一 --起源

2015年，斯坦福大学四位研究者通过思考物理学中的熵增定律——即，物体总是朝着更混乱的方向发展，后，提出Diffusion model扩散模型

红墨水滴入水杯里，红色色素迅速充满整个水杯，这个过程是分子的无序运动，而这个过程里，色素分子无序运动，是“”混乱“”的，是随机的

而研究者们，则思考能不能将这种随机混乱的效果运用到图像处理上面

二——原理过程

所谓扩散模型，小楚先避个雷，以下是我的个人思考观点，希望大佬指出错误。
首先是将一个正常图片，不断的添加高斯噪声（这个过程里，每次添加的噪声的量是固定，比如50高斯噪声，那么每一次都是50高斯噪声，）直至一张图片几乎完全是噪声

而后通过训练模型，来让一个模型实现，从“这幅已经是噪声的狗狗”还原成最初的狗狗图片，
而这个过程就是“”无“”中生有的过程，也就是“生成图片”

比如每一次还原50个高斯噪声，经过n步还原回去

听起来好像很简单，事实上，这个过程极度复杂
而其做到的方法其实离不开马尔科夫链+信息熵，来一步一步指导图片还原，事实上情况非常复杂

这里仅能用目前理解的东西告诉大家

所谓AI绘画，本质上就是一个可以将“高斯噪声”图片还原回去的过程
我们输入“一只快乐的狗在草原上奔跑”
clip会将 ‘一只’，‘快乐的’，‘狗’，‘草原上’，‘奔跑’分解成一个个向量，来寻找——“绘图意向”
你可以理解为有很多空间，其中一块空间全部放的是各种的狗，一个“狗的空间”，每一只狗是其中的一个点，

Diffusion model在还原图片的时候，就会靠近“狗”的这个空间，来尽可能像“一只狗”来还原，但是高斯噪声是随机的，所以最后图片上的狗每一次都长的不一样
同样，尽可能靠近草原，靠近快乐，

但是AI绘画远没有这么简单，在进一步了解以后，未来可能会给大家带来生成对抗模型、变微分自动编码器、流模型等各大生成模型

写在最后

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

在这里插入图片描述