当前位置:   article > 正文

一文回顾生成式AI的发展:GANs、GPT、自编码器、扩散模型和Transformer系列_一文回顾生成式ai的发展:gans、gpt、自编码器、扩散模型和transformer系列

一文回顾生成式ai的发展:gans、gpt、自编码器、扩散模型和transformer系列

ChatGPT的推出引起了全球关注,标志着生成人工智能领域的一个重要里程碑。尽管生成人工智能在过去十年中一直存在,但ChatGPT的引入引发了人工智能领域的新一轮研究和创新浪潮。这种兴趣的激增导致了许多先进工具的开发和发布,如Bard、Stable Diffusion、DALL-E、Make-A-Video、Runway ML和Jukebox等。这些工具展示了卓越的能力,涵盖了从文本生成和音乐创作,图像创建,视频制作,代码生成,甚至科学工作等各种任务。它们建立在各种先进模型的基础上,包括Stable Diffusion、变分自动编码器、生成对抗网络以及像GPT-3(最近的GPT-4)这样的Transformer模型。生成人工智能的这一进展提供了丰富的令人兴奋的机会,同时也带来了前所未有的挑战。在本文中,探讨了这些先进模型,它们能够完成的各种任务,它们带来的挑战,以及生成人工智能充满希望的未来。

引言

ChatGPT于2022年11月30日发布,引发了生成人工智能(GAI)在公众中的突破性和广泛的流行,标志着人工智能领域的一个显著成就。这一卓越的成就可以追溯到1956年由麦卡锡主持的达特茅斯学院夏季项目,标志着人工智能的起源。这一努力的目标是开发具有执行通常需要人类智能的任务的机器,包括计算机视觉、自然语言处理、机器人技术等。从那时以来,在使机器具备像人类一样说话、行走、思考和行动的能力方面取得了重大进展。值得注意的是,一系列算法,包括回归模型、感知器算法、决策树、K最近邻算法、朴素贝叶斯分类器、反向传播、支持向量机(SVM)和随机森林已经出现。这些算法通常被称为经典/传统机器学习算法,大多数在2000年之前开发。此外,深度学习算法也有了进展,包括20世纪80年代卷积神经网络(CNNs)的发展,20世纪85年循环神经网络(RNNs),1997年长短期记忆(LSTM)以及双向长短期记忆(BiLSTM)。然而,直到最近,广泛关注主要受到计算资源和数据集可用性限制的限制。

为了解决数据集有限的限制,斯坦福大学、普林斯顿大学和哥伦比亚大学的研究人员于2010年共同推出了ImageNet大规模视觉识别挑战。这次竞赛在推动神经网络架构方面发挥了关键作用,特别关注卷积神经网络(CNNs)。从那时起,CNN已经被确立为图像分类和计算机视觉的算法。2012年AlexNet的突破性成就标志着深度学习在计算机视觉任务中的实际应用取得了重要进展。ImageNet竞赛的成功引发了对深度学习研究的兴趣和投资的激增。

这种新发热潮导致了不断发展的改进架构创新,包括ResNet、DenseNet、MobileNet和EfficientNet等模型。这些模型为各种尖端技术设立了标杆,例如迁移学习、持续学习、注意机制、自监督学习和生成人工智能。

在2014年之前,所有现有的深度学习模型主要是描述性的,侧重于总结或表示现有数据的模式和关系。这些模型旨在解释数据模式并基于现有信息进行预测。然而,Goodfellow等人在2014年引入了生成对抗网络(GAN),开启了生成人工智能(GAI)实现的新时代。与它们的描述性对应物不同,生成模型(例如GANs)的设计目标是学习数据的概率分布。它们的主要目标是生成新的数据样本,这些样本与训练数据中观察到的模式密切相似。

GAN的突破标志着与传统深度学习方法的显著分离,为生成人工智能带来了令人兴奋的可能性。由于其在生活的各个领域产生的转变性影响,GAI自那时以来一直引起广泛关注。它为复杂问题提供了优雅的解决方案,使合成数据、艺术内容和逼真模拟成为可能。这种对人工智能技术的范式转变深刻影响了对人工智能的新认知、实施和利用,引发了跨行业的创新和新的应用机会。

GAI的出现引发了许多问题,促使对其进行全面探讨。在这方面,本文旨在深入探讨GAI的最新技术,包括模型、任务分类、应用领域、影响领域、挑战和前景。为了实现这一目标,将介绍当代生成模型,生成人工智能中的各种任务。以及审视生成人工智能的各种应用,并深入探讨了生成人工智能的前景。最后,提供结论。

生成模型

在当代,研究人员的关注已从判别学习转向生成学习。出现了多个生成模型,具有生成新数据点的能力,这些数据点类似于基于学习它们的分布的训练数据输入。讨论下生成模型的当前最先进的理论和数学基础。

自编码器

自编码器是一种无监督的机器学习神经网络模型,它使用编码器将输入数据编码成低维表示(编码),然后使用解码器将其解码回原始形式(解码),同时减少重构误差。该模型最初被设计用于降维、特征提取、图像去噪、图像压缩、图像搜索、异常检测和缺失值填补。

该模型的编码器和解码器都是神经网络,分别写成输入的函数和码层的通用函数。根据下图1,

自编码器由四个组件组成,即:

编码器:该组件将输入数据降维压缩为较低维度。由于其输出,它创建了一个称为“码”的新层。

码/瓶颈:包含输入数据表示的压缩和可能的最低维度的层。考虑下面的方程1。

其中是应用于输入的用户定义参数的函数f后的码层。

解码器:从较低维度的表示重构码层到输入。

其中 是编码器输出后的第二个通用函数到码层。

重构损失:定义解码器的最终输出,衡量输出与原始输入的相似程度。

自编码器的训练涉及最小化输入和输出之间的不相似性,如方程3所示。

编码器和解码器由全连接的前馈神经网络组成,其中输入、码和输出层分别由用户定义的单个神经网络层构成。与其他标准神经网络一样,自编码器应用激活函数,如sigmoid和ReLU。存在各种自编码器的变体,例如收缩、去噪和稀疏自编码器。通常,前面提到的普通自编码器不是生成型的,因为它们不生成新数据,而是复制输入。然而,变分自编码器是一种生成型的变体。

变分自编码器

变分自编码器(VAE)是由Kingma等人引入变分推理(一种用于近似复杂分布的统计技术)到自编码器(AE)而演变而来的。它是一种生成模型,利用变分贝叶斯推理来描述使用概率分布生成数据。

与传统的AE不同,VAE除了有一个编码器和解码器层外,还有一个额外的采样层,如下图2所示。

训练VAE模型涉及将输入编码为潜在空间上的分布,并从分布采样生成潜在向量。然后,解码潜在向量,计算重构误差,并通过网络进行反向传播。在训练过程中,明确引入正则化以防止过拟合。

概率上,VAE由潜在表示 z 组成,如下图3所示,

从先验分布 p(z) 中抽取,数据 x 从条件概率分布 p(x|z) 中抽取,该分布被称为概率解码器,可以表示为:

模型的推理通过使用贝叶斯定理计算潜在向量的后验概率来进行检验,如方程5所示。

对于任何分布变体,如高斯分布,变分推理可以近似后验概率,其近似的可靠性可以通过度量在近似过程中丢失的信息的Kullback-Leibler(KL)散度来评估。正如下表1所示,这个模型在各个领域都产生了显著影响,突出显示了使用VAE的一些杰出的最新技术示例。

Transformer

Vaswani等人在Google Brain团队的开创性工作中提出的"Attention Is All You Need"引入了一种可以分析大规模数据集的Transformer模型。Transformer最初是为自然语言处理(NLP)而开发的,但随后被改编用于机器学习的其他领域,如计算机视觉。该模型旨在解决循环神经网络(RNNs)和卷积神经网络(CNNs)的缺陷,如长距离依赖性、梯度消失、梯度爆炸、需要更大的训练步骤以达到局部/全局极小值,以及不允许并行计算的事实。因此,提出的解决方案呈现了一种处理神经网络任务的新颖方式,如翻译、内容生成和情感分析。

「Transformer架构」

Vaswani等人在他们的研究中引入了下图4所示的三个主要概念,包括自注意力(self-attention),允许模型根据其重要性评估输入序列,从而减少长距离依赖性;多头注意力(multi-head attention),允许模型学习输入序列的多个表示方式;以及词嵌入(word embedding),将输入转化为向量。

「编码器和解码器」 值得一提的是,Transformer架构(图4)继承了编码器-解码器结构,利用了堆叠的自注意力和point-wise层,以及编码器和解码器的全连接层。编码器由N = 6个相同层的堆叠组成,每个层都有两个子层,包括一个多头自注意力机制和一个全连接的前馈网络。解码器类似于编码器,但有一个额外的子层,用于屏蔽多头注意力。编码器和解码器都对子层应用残差连接,然后对层进行归一化。

「自注意力」

注意力描述了通过关注句子或任何输入的关键部分来更好地理解单词上下文的机制。它涉及将查询向量和一组键值对映射到输出向量。根据,自注意力是指缩放的点积注意力,包括查询和键的维度 ,以及根据以下公式计算的值的维度 :

图5描述了结构注意力,其中SoftMax激活函数用于计算值的权重。

「多头注意力」

多头注意力机制提出,自注意力可以以并行模式运行多次,通过查询、键和值的不同表示子空间结合相同注意力池的知识。然后,独立的注意力输出被串联并线性转换为期望的维度,如方程7和图6所示。

其中,

自从Transformer被发明以来,已经开发了多个变体,用于解决计算机视觉和自然语言处理中的不同机器学习任务。值得注意的是,现代最先进的模型都是基于Transformer架构构建的。

1)生成预训练Transformer(GPT)

生成预训练Transformer(GPT)描述了基于Transformer的大语言模型(LLM),利用深度学习技术生成类似人类的文本。该模型由OpenAI于2018年引入,在Google于2017年发明Transformer之后。它由一堆Transformer解码器组成。他们提出了一个模型,包括两个阶段:从大量文本语料库中学习高容量语言模型,然后在判别任务期间使用带标签的数据进行微调,如下图7所示。

GPT或GPT-1是在BooksCorpus数据集上训练的,该数据集包含超过7,000本不同流派的未发表书籍,如冒险、奇幻和言情小说,所有书籍都有长段连续文本,使生成模型能够学习长距离信息。该模型的训练规格包括以下内容:

  • 12层仅解码器Transformer。

  • 掩码自注意头(768维状态和12个注意头)。

  • 位置逐层前馈网络。

  • Adam优化。

  • 学习速率:2.5e-4。

  • 3072维内部状态。

模型的评估任务来自自然语言处理(NLP)中的四个主要类别,包括自然语言推理、问答和常识推理、语义相似性和分类。在初始发布之后,OpenAI推出了一系列称为GPT-n系列的变体模型,其中每个后继模型都比前身更为重大和高效。GPT-4是最近在2023年3月发布的变体。

2)GPT-2

在GPT-1取得巨大成功后,OpenAI于2019年发布了第二个版本(GPT-2),具有15亿个可学习参数,比其在WebText上训练的前身的预训练语料库和参数多十倍。因此,该模型能够处理复杂问题,并在广泛的主题和风格上生成连贯且上下文相关的文本。

3)GPT-3

这个版本于2020年发布,有2048 tokens的上下文,1750亿可学习参数,比其前身多100倍以上,并需要800GB的存储。使用CommonCrawl对模型进行训练,在NLP的所有领域进行了测试,并具有有希望的few-short和zero-shot性能。这个版本进一步改进为GPT 3.5,用于开发ChatGPT。已进行了大量的研究工作,涵盖了从GPT-1到GPT-3.5的各种任务,如语音识别、文本生成、密码学、计算机视觉和问答。

4)GPT-4

在2023年3月,OpenAI发布了最新的GPT模型,名为GPT-4。这是一个多模态Transformer模型,是一个大规模的语言模型,接受图像和文本输入并生成文本输出。在许多专业和学术基准测试中,包括在高水平通过法律和医学考试等,GPT-4表现出与人类相当的高性能。该模型是使用公开可用的互联网数据和从第三方获得的数据进行训练的,然后通过使用来自人类反馈的强化学习(RLHF)进行微调。它与使用测量大规模多任务语言理解(MMLU)的最先进模型进行了比较,该任务涵盖了初等数学、美国历史、计算机科学、法律等57个任务,并在所有任务中表现出色。

生成对抗网络(GAN)

1)GAN概述

生成对抗网络(GAN)是一种无监督的生成模型,由两个神经网络组成:一个生成器和一个判别器。生成器试图制造与真实数据无法区分的新数据(伪造数据),而判别器则试图区分真实数据和伪造数据。下图8展示了GAN的原理架构(也称为普通GAN)。
 

生成器网络以噪声作为输入并生成伪造数据。判别器网络以真实数据和伪造数据作为输入,并使用Sigmoid激活函数和二元交叉熵损失将它们分类为真实或伪造。由于生成器没有直接访问真实图像,它只能通过与判别器的交互进行学习;判别器可以访问合成和真实图像。在完成分类后,进行反向传播以优化训练过程。此过程重复进行,直到真实数据和伪造数据样本之间的差异可以忽略不计。

根据Goodfellow等人的研究,生成器(G)和判别器(D)一起在一个极小极大博弈(零和博弈)中进行训练。如方程8所示,在这个博弈中,G试图最大化D错误分类其输出为真实数据的概率,而D试图最小化其错误分类G输出的概率。

其中E表示期望值,是真实数据分布,(

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/90876
推荐阅读
相关标签