赞
踩
前言:AIGC全称为AI-Generated Content,直译为人工智能内容生成。即采用人工智能技术来自动生产内容。AIGC在2022年的爆发,主要是得益于深度学习模型方面的技术创新。不断涌现的生成算法、预训练模型以及多模态等技术的融合引发了AIGC的技术变革,使得AI模型成为了自动化内容生产的“工厂”和“流水线”。下面对AIGC使用的主要模型进行介绍。
变分自编码器[1]由Kingma和Welling于2014年提出,与传统的自编码器通过数值方式描述潜空间不同,它以概率方式对潜在空间进行观察。VAE分为编码器与解码器两部分,其中,编码器将原始高维输入数据转换为潜在空间的概率分布描述;解码器从采样的数据进行重建生成新数据。
假设一张人脸图片通过编码器生成了“微笑”、“肤色”、“性别”、“胡须”、“眼镜”、“发色”等多种特征,传统的自编码器对输入图像编码后生成的潜在特征为具体的数值,比如,微笑=0.5,肤色=0.8等,将这些数值送入解码器解码得到与输入接近的图像,即该张人脸的信息已经被存储至网络中,输入此人脸,就会输出一张固定的与该人脸相似的图像。然而,上述方法无法生成多样化的与输入近似的图像,因此,VAE将每个特征都由概率分布来表示,假设“微笑”的取值范围为0~5,“肤色”的取值范围为0~10,在此范围内进行数值采样可得到生成图像的潜在特征表示,同时,通过解码器生成的潜在特征解码得到生成图像。
生成对抗网络[2]于2014年由Ian GoodFellow等人提出,使用零和博弈策略学习,在图像生成中应用广泛。GAN包含两个部分:
流模型[3]于2014年被Yoshua Bengio等人提出,它和VAE、GAN属于同时期的成果。但流模型由于整体偏数学化,加上早期效果没有特别好但计算量特别大,直到OpenAI发布基于流模型的Glow模型[4],关于Flow模型的研究才逐渐被重视。Flow模型的目标是通过直面生成模型的概率计算,找到输入样本的分布。Flow模型的转换通常是可逆的。整体上来说,流模型是为了对复杂的高维数据进行非线性变换,将高维数据映射到潜在空间,产生独立的潜在变量。这个过程是可逆的,即可以从高维数据映射到潜在空间,也可以从潜在空间反过来映射到高维数据。
扩散是受到非平衡热力学的启发,定义一个扩散步骤的马尔科夫链,并逐渐向数据中添加噪声,然后学习逆扩散过程,从噪声中构建出所需的样本。扩散模型[5]的最初设计是用于去除图像中的噪声。随着降噪系统的训练时间越来越长且越来越好,可以从纯噪声作为唯一输入,生成逼真的图片。扩散模型的工作原理是通过添加噪声来破坏训练数据,然后使模型学习如何学去除噪声从而恢复数据。然后,该模型将此去噪过程应用于随机种子以生成逼真的图像。
一个标准的扩散模型分为两个过程:(1)前向扩散:向原图中逐步加入噪声,直到图像成为完全随机噪声;(1)反向扩散:在每个时间步逐步去除预测噪声,从而从高斯噪声中恢复原数据。
Stable diffusion是一个基于Latent Diffusion Models(LDMs)的以文生图模型的实现,因此掌握LDMs,就掌握了Stable Diffusion的原理。为了降低训练扩散模型的算力,LDMs使用一个Autoencoder去学习能尽量表达原始image space的低维空间表达(latent embedding),这样可以大大减少需要的算力。
Transformer[6]于2017年由谷歌提出,最初用来完成不同语言之间的翻译。其主体包括Encoder与Decoder,前者对源语言进行编码,后者将编码信息转换为目标语言文本。Transformer采用注意力机制对输入数据各部分重要性的不同而分配不同权重,其并行化处理的优势能够使其在更大的数据集训练,加速了GPT等预训练大模型的发展。
ViT[7]于2020年由谷歌团队提出,是将Transformer应用至图像分类任务的成功案例。ViT将图像分为14*14的patch,并对每个patch进行线性变换得到固定长度的向量送入Transformer,后续与标准的Transformer处理方式相同。
GPT[8]的全称为Generative Pre-trained Transformer,其结构基于Transformer模型,它能够通过预测单词序列中的下一个单词来生成类似人类的文本。GPT-2[9]和GPT-3[10]相较于GPT主要是在模型规模、训练数据、生成控制和生成质量等方面进行改进。GPT-3.5加入了新的训练方法,包括元学习(Meta Learning)和基于人类反馈的强化学习(Reward Learning from Human Feedback,RLHF)。RLHF技术可以帮助模型从人类反馈中学习,不断提高自己的生成质量。同时,这种技术还可以避免模型生成不合适或有害的内容,保证生成的文本符合人类价值观和道德标准。
ChatGPT与InstructGPT[11]是兄弟模型,它在GPT-3.5的基础上引入了一些新的训练数据和Fine-tuning技术,如对话历史的建模和多轮对话的处理等,以提高模型在对话生成任务中的表现和效果。同时,ChatGPT还采用了一些人工干预和交互式学习的方法,以进一步提高模型的可控性和自然度。
2023年3月,OpenAI推出了GPT-4[12],GPT-4在事实性、可控性和避免超出限制等方面取得了迄今为止最好的结果。
虽然过去各种模型层出不穷,但是生成的内容偏简单且质量不高,远不能够满足现实场景中灵活多变以高质量内容生成的要求。预训练大模型的出现使AIGC发生质变,诸多问题得以解决。大模型在CV/NLP/多模态领域成果颇丰,如CV领域:微软Florence(SwinTransformer),NLP领域:谷歌的Bert&LaMDA&PaLM、OpenAI的GPT-3&ChatGPT,以及多模态领域:OpenAI的CLIP[13]&DALL-E、微软的GLIP以及Stability AI的Stable Diffusion.
文本生成:JasperAI、copy.AI、ChatGPT、Bard、AI dungeon、文心一言等;
图像生成:EditGAN,Deepfake,DALL-E 2[14](文生图&图生图)、Imagen[15](文生图)、Midjourney、Stable Diffusion[16](文生图&文图生图),文心一格等;
音频生成:DeepMusic、WaveNet、Deep Voice、MusicAutoBot等;
视频生成:Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagen video等。
参考资料
参考文献
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。