当前位置:   article > 正文

聊一聊AIGC

rnn和aigc

“UGC不存在了”——借鉴自《三体》

ChatGPT 的横空出世将一个全新的概念推上风口——AIGC( AI Generated Content)。

GC即创作内容(Generated Content),和传统的UGC、PGC,OGC不同的是,AIGC的创作主体由人变成了人工智能。

xGC

  • PGC:Professionally Generated Content,专业生产内容

  • UGC:User Generated Content,用户生产内容

  • OGC:Occupationally Generated Content,品牌生产内容。

AI 可以 Generate 哪些 Content?

作为淘宝内容线的开发,我们每天都在和内容打交道,那么AI到底能生成什么内容?

围绕着不同形式的内容生产,AIGC大致分为以下几个领域:

d09d6cebe1eff3981e3ca8904bccb800.png

文本生成

基于NLP的文本内容生成根据使用场景可分为非交互式文本生成交互式文本生成

非交互式文本生成包括摘要/标题生成、文本风格迁移、文章生成、图像生成文本等。

交互式文本生成主要包括聊天机器人、文本交互游戏等。

【代表性产品或模型】:JasperAI、copy.AI、ChatGPTBard、AI dungeon等。

b74a674c1fc0979650849c40f9d1d98c.png

图像生成

图像生成根据使用场可分为图像编辑修改图像自主生成

图像编辑修改可应用于图像超分、图像修复、人脸替换、图像去水印、图像背景去除等。

图像自主生成包括端到端的生成,如真实图像生成卡通图像、参照图像生成绘画图像、真实图像生成素描图像、文本生成图像等。

【代表性产品或模型】:EditGAN,Deepfake,DALL-E、MidJourneyStable Diffusion文心一格等。

e6ae0cf009b5d67c070954f073b84e2d.png

音频生成

音频生成技术较为成熟,在C端产品中也较为常见,如语音克隆,将人声1替换为人声2。还可应用于文本生成特定场景语音,如数字人播报、语音客服等。此外,可基于文本描述、图片内容理解生成场景化音频、乐曲等。

【代表性产品或模型】:DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。

a062f49d4bd1469d1922b418c029684e.png

视频生成

视频生成与图像生成在原理上相似,主要分为视频编辑视频自主生成

视频编辑可应用于视频超分(视频画质增强)、视频修复(老电影上色、画质修复)、视频画面剪辑(识别画面内容,自动场景剪辑)

视频自主生成可应用于图像生成视频(给定参照图像,生成一段运动视频)、文本生成视频(给定一段描述性文字,生成内容相符视频)

【代表性产品或模型】:Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagen video等。


多模态生成

以上四种模态可以进行组合搭配,进行模态间转换生成。如文本生成图像(AI绘画、根据prompt提示语生成特定风格图像)、文本生成音频(AI作曲、根据prompt提示语生成特定场景音频)、文本生成视频(AI视频制作、根据一段描述性文本生成语义内容相符视频片段)、图像生成文本(根据图像生成标题、根据图像生成故事)、图像生成视频。

【代表性产品或模型】:DALL-E、MidJourney、Stable Diffusion等。

本文接下来将会着重讲述文本类AIGC和图像类AIGC。

文本类AIGC

RNN → Transformer → GPT(ChatGPT)

最近势头正猛的ChatGPT就是文本类AIGC的代表。

ChatGPT(Chat Generative Pre-trained Transformer),即聊天生成型预训练变换模型,Transformer指的是一种非常重要的算法模型,稍后将会介绍。

其实现在的用户对于聊天机器人已经很熟悉了,比如天猫精灵、小爱同学或是Siri等语音助手。那为什么ChatGPT一出现,这些语音助手就显得相形见绌呢?

本质上是NLP模型之间的差异。

在自然语义理解领域(NLP)中,RNN和Transformer是最常见的两类模型。

循环神经网络(recurrent neural network)

RNN,即循环神经网络(recurrent neural network)源自于1982年由Saratha Sathasivam 提出的霍普菲尔德网络。下图所示是一个RNN网络的简易展示图,左侧是一个简单的循环神经网络,它由输入层、隐藏层和输出层组成。

bbe77cb016cc182dd2344406b1620026.png

RNN 的主要特点在于 w 带蓝色箭头的部分。输入层为 x,隐藏层为 s,输出层为 o。U 是输入层到隐藏层的权重,V 是隐藏层到输出层的权重。隐藏层的值 s 不仅取决于当前时刻的输入 x,还取决于上一时刻的输入。权重矩阵 w 就是隐藏层上一次的值作为这一次的输入的权重。由此可见,这种网络的特点是,每一个时刻的输入依赖于上一个时刻的输出,难以并行化计算。

从人类视角理解RNN 人类可以根据语境或者上下文,推断语义信息。就比如,一个人说了:我喜欢旅游,其中最喜欢的地方是三亚,以后有机会一定要去___,很显然这里应该填”三亚”。 但是机器要做到这一步就比较困难。RNN的本质是像人一样拥有记忆的能力,因此,它的输出就依赖于当前的输入和记忆。

Transformer

而Transformer模型诞生于2017年,起源自《Attention Is All You Need》。这是一种基于Attention机制来加速深度学习算法的模型,可以进行并行化计算,而且每个单词在处理过程中注意到了其他单词的影响,效果非常好。

!](https://cdn.ytools.xyz/uPic/202303211936538.png)

Attention机制:又称为注意力机制,顾名思义,是一种能让模型对重要信息重点关注并充分学习吸收的技术。通俗的讲就是把注意力集中放在重要的点上,而忽略其他不重要的因素。 其中重要程度的判断取决于应用场景,根据应用场景的不同,Attention分为空间注意力时间注意力,前者用于图像处理,后者用于自然语言处理。

84f11715b4e557e2a0dbd1f070fcd6a9.png

Transformer是完全基于自注意力机制的一个深度学习模型,有关该模型的介绍,详情可参考下面这篇文章

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/blog/article/detail/54323
推荐阅读
相关标签