当前位置:   article > 正文

文章用AI生成赋能元宇宙:概况与未来发展方向

文章用AI生成赋能元宇宙:概况与未来发展方向

本文旨在通过强调人工智能生成内容(AIGC)在元宇宙中的潜力来推动元宇宙的发展。本文对元宇宙中的AIGC进行了首次文献综述,将最新研究分为5个关键应用领域(形象和非玩家角色(NPC)、内容创作、虚拟世界生成、自动数字孪生和个性化)。在通过作者的综述注意到研究中的显著差距后,作者提出了将最先进的生成人工智能应用于元宇宙的方法。此外,作者提供了一个未来的研究路线图与相关的伦理意义。

介绍

元宇宙的一个共同愿景是通过尖端技术增强世界。生成人工智能的最新进展带来了前所未有的现实主义水平,并可以通过支持先进工具或自动化不同的流程来提供增强。研究如何将工业和研究中的最先进的生成 AI 技术整合到元宇宙中可以展示 AIGC 在革命化元宇宙、改善沉浸式虚拟体验方面的潜力。

没有任何论文专门回顾元宇宙中关于AIGC的文献。尽管回顾了整个元宇宙的文献、更广泛或更窄的层面(例如隐私和安全以及人机协同创作)、生成人工智能以及最近的人工智能创新,其中部分关注生成人工智能。最接近的工作回顾了元宇宙中关于人工智能的一般文献。

本文旨在通过特别强调AIGC在元宇宙方面的潜力来推动元宇宙的发展。它用主要来自著名的IEEE Xplore和ACM数字图书馆(ACM DL)的文章回顾了研究现状,提出了最先进的生成人工智能的潜在应用,并提供了研究路线图。

在相关工作的基础上,对定义达成了一致。使用对元宇宙的定义: 物理和数字的虚拟混合,主要由 Web 技术和扩展现实(XR)支持,增强了现有的世界。定义 XR 为覆盖虚拟现实(VR)、混合现实(MR)和增强现实(AR)。使用对 AIGC 的定义: 完全或部分由 AI 生成的内容。

为了回顾最近的研究,作者于2023年2月17日在IEEE Xplore和ACM DL上对过去5年的文章进行了标题摘要搜索,其中包含与定义相关的关键词。具体而言,作者使用了关键词“metaverse”, “mr”, “ar”, “xr”,和 “vr” 来捕捉广泛的元宇宙技术。作为测试,作者还查询了标题或摘要中只有“aigc”的文章,并注意到 IEEE Xplore 只有1个结果,而 ACM DL 没有结果。这可能是因为缩写“AIGC”没有被广泛使用。因此,作者决定使用“ai-generated”和“gpt”来代替。作者包括后者是因为在 IEEE Xplore (1 result)中只使用“ ai 生成”时缺乏结果。由于 GPT 的不同版本是一些最流行的生成 AI 模型,作者希望这可以增加结果的数量。

由于时间范围和关键词的标准相似,作者还在谷歌学术上搜索文章,并在2023年3月下旬手动添加了其他来源的文章。

作者根据相关性、实验稳健性和场所选择了关键文章,在第二节中对其进行了回顾。

目前 AIGC 在元宇宙中的应用

外观形象与NPC

外观形象指的是元宇宙中用户的数字虚拟形象,而 NPC 或计算机代理指的是不受玩家控制的角色。NPC 可以具有与形象相似的外观和功能。因此,AIGC 可以以类似的方式支持形象和 NPC。

现有工作覆盖了逼真形象创作的不同方面,即头部生成、全身非语言表达特征、服装形象创作、舞蹈动画、一般3D全身运动和动物形象生成。

具体而言,提出了一种新的条件生成对抗性网络(GAN)设计,该设计可以仅从一个2D输入图像生成动态3D形象人脸,而无需从源图像转移。为了改善虚拟人物的讲话时的动画,设计了一个实时系统,使用深度神经网络实现音频和 3D 虚拟人物面部的歌唱时动画之间的同步,显著减少了对训练数据的需求。为了合成真实的多视角一致的人类头部图像,这可能有助于3D形象头部建模,提出了一种可变形辐射场方法,该方法可以仅从受试者的少数图像中快速生成神经辐射场(NeRF),并在不同视角下进行一致渲染。注意到现有的3D面部生成方法更多地关注人脸表面,而不是表面和骨骼结构之间的相关性,试图通过引入一种新的参数化人脸生成器来提高人脸生成中的解剖准确性和视觉真实性,该生成器可以创建与骨骼结构一致的3D人脸。为了训练他们的生成器,作者通过对正颌手术前和手术后的完整人头进行高质量的计算机断层扫描,建立了第一个大规模的形状骨骼面部数据集。通过一系列应用,作者注意到他们的生成器可以提高现有3D人脸数据的物理正确性。

尤其是在社交任务中,想象的行为会引起人类的同理心,这会影响互动质量。在真实世界中,人类使用语言和非语言来表达自己的情绪。为了探索这些特征,引入了一种实时算法,该算法根据步态和凝视来生成虚拟主体的行走风格,表达不同的感知情绪(即快乐、悲伤、愤怒或中性)。

多样化、逼真的服装的产生对形象的产生是一个挑战。作者发现了几部工作,它们解决了与服装形象生成相关的不同挑战。为了解决现有的穿衣形象生成模型的质量和多样性限制,引入了神经广义隐式函数,这是一种新的模型,可以通过学习其他姿势的3D 扫描来为新的身体姿势生成穿衣形象。通过一种基于隐式函数的方法,可以从任何姿势的人类单个 RGB 图像和由该图像估计的皮肤多人线性身体模型重建一个穿衣的3D人体,从而消除了对受控姿势的人体3D扫描或2D图像的需要。将现有的形象生成技术与可动画化服装相结合,设计了一种新颖的照片真实感服装形象生成方法,该方法为包括宽松服装在内的不同服装产生更真实的变形和更丰富的物理动力学。作者的方法还支持形象之间的服装转移和服装尺寸调整,根据他们的说法,这首次实现了穿着新服装的真实感全身形象的生成。

为了提高音乐和3D形象舞蹈动画之间的同步性,提出了一种基于两阶段基于transformer的过程,该过程通过首先生成关键的舞蹈姿势来渲染流畅的节奏对齐的动作,该姿势可以更容易地与音乐节拍同步,然后通过生成中间动作来渲染。

为了解决现有动作条件下的人体运动生成模型的局限性,提出了一种更灵活的基于自回归transformer的3D运动生成方法,该方法只需要对任意长度或根本不需要长度的观测值进行条件调节。为了支持文本到3D的人体运动生成,引入了一种基于文本条件的变分自动编码器模型,该模型可以生成基于骨架的动画(如以前的作品)和更具表现力的运动。进一步探索文本描述和3D人体运动之间的相互作用,提出了一种支持文本到运动和运动到文本生成的方法。

为了使复杂的动物类型(NPC)自动化生成,提出了一种基于神经模型的管道,可以渲染实时动画照片逼真的毛茸茸的动物,用户可以与之进行2D或VR交互。

除了头像创作,还有一项工作专注于人工智能头像的应用。为了协助警察和儿童保护服务部门进行与受虐待儿童面谈的人员培训,开发了一个VR系统,该系统使用虚拟AI儿童形象模拟此类面谈。

内容创作

元宇宙中的内容创建是指通过创作工具创建数字对象。AIGC可以支持创意内容的全部或部分生成。

作品专注于视觉效果的生成,即3D重建、创意支持、3D分子建模和自由视点视频生成。

通过开发和测试一种无监督的3D领域自适应方法,解决了三维雕塑虚拟重建中的训练数据稀缺性和拓扑多样性问题。他们的最终pipeline以雕塑的单个 RGB 图像作为输入,并通过无监督的方法,利用更丰富的真实世界的人体形状数据,重建接近雕塑形状的三维雕塑。

为了解决在 VR(3D)中精确绘图的挑战,引入了 Multiplanes(多平面),一个通过意图预测生成快照平面和美化触发点的 VR 绘图系统。为了实现 AR 和 MR 更复杂、更具表现力的手势,提出了一个神经网络驱动的 AR/MR 眼镜用户界面,其支持通过估计进行空中绘制。 注意到在创建和编辑三维目标时,二维交互比三维直接操作更直观,引入了一个通用的多模态生成模型,该模型可以通过耦合2D模型和隐式3D表示的共享潜在空间传播来自2D控制模型的编辑变化。例如(如下图1所示),用户可以通过仅与2D渲染交互来编辑或重新着色3D形状。用户还可以创建仅具有RGB图像或2D草图的3D对象。有 RGB 图像或2D 草图的3D 对象。还提出了一种只需要二维草图即可生成三维表示的方法。作者的重点是从位图草图中自动生成3D角色姿势,这有助于艺术家耗时地创建3D角色。为了解决算法由于比例失真和缩短而难以解释草图的问题,作者重点预测了三个关键元素,这三个关键因素可以准确识别角色的姿势:2D骨骼切线、自接触关节的相对位置和骨骼缩短。

Fig.1. 图[29],显示了用户仅使用文章模型通过2D创建或操作3D对象的不同方式。

虽然看到的作品专注于视觉艺术,但通过引入它声称的第一个在3D环境中生成分子的扩散模型,为分子科学的内容创作做出了贡献。实验结果表明,该模型在生成样本质量和训练时间效率方面都优于现有方法。

Free-viewpoint视频,即用户可以从任何角度观看的视频,对于在沉浸式VR/AR环境中观看沉浸式视频至关重要。为了填补研究空白,提出了第一种生成大视图相关动态场景的可编辑Free-viewpoint视频的方法,使用基于时空NeRF的动态场景实体表示以及仅有16个摄像机。为了填补另一个空白,专注于人类Free-viewpoint视频的神经交互bullet-time生成,这可以支持在游戏,教育和视觉艺术中创建矩阵式停止时间视觉效果。

虽然看到的大多数作品都集中在3D上,但Wander,一个人类人工智能联合讲故事系统,通过将虚拟人工智能生成的文本和2D图像与真实的全球坐标(GPS)相结合,对元宇宙的定义提出了新的看法。用户可以让这个基于转换器的对话代理生成虚构的未来版本GPS位置的文本和视觉游记,然后通过文本探索该位置。

虚拟世界生成

作者认为虚拟世界的生成是人工智能辅助创建虚拟环境。很多工作关注的是整个环境的生成。提出了一种生成高动态范围全景图的零样本文本驱动框架,可用于生成3D 场景的真实感渲染和/或创建沉浸式虚拟现实场景,从独创形式的场景文本描述。提出了一种自动算法,通过场景分类、物体深度估计和音源放置,为静态全景图像分配真实的音频。为了缓解日常生活压力造成的身体和体验脱节,引入了一种系统,可以通过产生一个声带来促进集中注意力冥想,使用户能够集中注意力在他们的呼吸上。该系统的设计由呼吸传感器和分析模块驱动的沉浸式虚拟环境和人工智能驱动的生成声音环境组成,视觉和声音响应用户的呼吸模式。

在关注环境生成的工作中,有些更专门针对室内环境的产生。提出了一种文本到房间的生成方法,该方法迭代地融合来自不同视角的场景框架,以创建一个无缝的房间缩放纹理3D网格(如下图2所示)。作者声称他们的方法是第一个可以从纯文本输入生成“具有引人注目的纹理的房间尺度3D几何图形”的方法。提出了第一个基于深度学习的自动室内照明设计和生成系统,该系统将室内场景作为输入,然后自动将灯光放置在适当的位置并生成相应的照明效果。为了构建他们的系统,他们使用神经网络从新建的6k 3D室内场景数据集中学习现有的照明设计指南,并带有与光相关的注释。

Fig.2.图取自[38]。如(a)所示,房间是从不同的视角(蓝色)迭代生成的。(b)显示生成的网格。

很多工作还集中在改进环境中对象的生成。为了解决基于3D感知的 NeRF 图像生成的结构意识和优化限制,提出了一种新的生成模型,可以明确地学习目标的结构和纹理表示,这可以用于虚拟世界中的对象。他注意到现有的3D 生成模型缺乏几何细节、拓扑变化或纹理支持,于是引入了一个生成模型,创建具有丰富的几何细节和高保真纹理的拓扑复杂的3D 网格。该模型可用于生成各种对象的网格,包括汽车、动物、人类和建筑物。为了解决缺乏可用的纹理化3D形状数据来训练依赖于3D输入的对象纹理生成模型的问题,提出了一种基于GAN的方法,该方法只需要来自同一对象类别的2D图像和3D形状几何形状,而不需要图像和形状几何形状之间的任何对应关系或任何3D颜色监督,来学习3D对象的纹理化。

其他工作集中在与虚拟世界生成相关的可能问题。为了解决缺乏可用于基于文本的数字场景自动生成的注释数据的问题,引入了一个可以在 VR 中生成空间超文本的工具,可用于训练 Text2Scene (场景表示的自然语言描述)系统。为了研究程序性内容生成(PCG)是否会通过减少控制和自由来阻碍VR城市建设游戏中的创造力,进行了一项用户研究,参与者报告了在不同程度的PCG条件下完成任务的集中注意力和创造力支持的测量。结果表明,PCG 可以在不干扰使用者创造力的情况下用于活动。

自动数字孪生

数字孪生是具有高度完整性和意识的数字克隆,他们的物质实体不断地与物质世界相互作用。它们可以支持医疗保健程序(如手术)、城市规划和工业系统。虽然作者发现了一些关于自动数字孪生生成的作品(例如木材预制制造系统模拟和物联网场景的数字孪生生成),但基于搜索,与其他人相比,知名的计算机科学场所在这一领域的实验研究相对较少。

个性化

个性化是指适应用户需求的生成AI。虽然发现在元宇宙背景下,使用选择的搜索关键字和标准,很少有研究关注这一点,但人类人工智能协作工作可以朝着这一方向扩展。

最先进的生成人工智能

在上一节中介绍了当前在元宇宙中对AIGC的研究后,也意识到,尽管AIGC具有潜力,但当前在元世界中使用AIGC的情况仍然有限。因此,作者还调查了可以应用于元宇宙的最先进的生成算法、系统和平台。其列出了最先进的生成 AI 可以应用于图9中的元宇宙的方法。

具体来说,图9中的表格显示了基于 AI 生成器/AIGC (列)类型的上一节(行)中提到的元宇宙中5个应用领域的现有和潜在用例。为了便于执行未来的研究,对于每个 AIGC 类型,作者列出了可以随时或很快被研究人员使用的主要工业工具。

作者根据6种 AIGC 输出类型对当前的 AI 生成器进行了分类: 文本、图像、3D 视觉、代码、音频和视频,这些输出类型可以更逼真,也可以更像动画。

目前发现的主要文本模型都基于谷歌大脑革命性的2017 Transformer,这是一种用于自然语言处理的神经网络架构,在质量和训练时间效率方面都显著超过了竞争对手。它们包括OpenAI的GPT-3、ChatGPT和GPT-4,这是一种具有更多能力的改进,被认为是人工通用智能的早期版本、Meta的LLaMA、DeepMind的Chinchilla AI和谷歌的LaMDA。一些平台包括Cohere、Anthropic和Hugging Face的平台。

一些图像生成器包括Stability AI的Stable Diffusion,一种文本到图像的潜在扩散模型,OpenAI的Dall-E 2,一种基于文本到图像扩散的两阶段模型,在真实感和分辨率质量方面超过了其前身Dall-E,以及Midtravel的基于Discord的文本到图像生成器。

一些3D视觉生成器包括OpenAI的Point-E,一个基于文本到3D扩散的系统),微软的Rodin diffusion,一个以图像、文本或随机噪声为输入的3D化身扩散模型,以及谷歌的DreamFusion,基于文本到三维扩散的模型,作者还发现了一些关于生成360°全景图像的非研究性工作,这些图像可以用作3D环境的背景。一个值得注意的例子是Blockade Labs的skybox生成器,它使用Stable Diffusion的修改版本,根据文本提示生成具有不同视觉样式(包括无视觉样式)的skybox投影。

一些代码生成器包括DeepMind的AlphaCode,一种基于Transformer的文本到代码模型,OpenAI的GPT(图7中的GPT-4示例),以及Tabnine的基于集成开发环境的代码生成器,可以为整行或函数提供代码完成,并基于自然语言描述提供代码建议。

音频发生器可以分为语音合成器和声音/音乐发生器。一种语音合成器是Murf AI的文本到语音生成器。一些声音/音乐生成器包括OpenAI的MuseNet,这是一个基于Transformer的模型,可以生成长达4分钟的音乐作品和Soundful的AI音乐生成器平台。

一些视频生成器包括Meta的Make-A-video,这是一种不需要文本视频数据的文本到视频方法,谷歌的Imagen video,一种视频差异融合模型的文本到图像系统,以及Krikey AI的文本到形象动画工具。

虽然其他模型/平台的发布是多年来分散的,但主要3D和视频生成平台/模型的发布是最近的。这可能会影响3D环境中应用程序的研究进展。

通过对当前 AIGC 研究和最新技术的回顾,作者注意到了一些关键的研究方向。将在本节的其余部分详细讨论它们,以便为未来的研究提供更清晰的指导方针。

尽管代码生成器具有潜力,但发现很少有实验研究集中在选择的搜索关键字的代码生成器的元宇宙应用上。他们可以通过生成常用的代码段来减少开发人员的工作量。对于虚拟形象/NPC,他们可以生成针对特定平台的常见行为的代码(例如驾驶游戏的自动驾驶代码)或者在任何地方使用(例如眨眼行为)。对于内容创建,它们可以为不同类型的创建生成常用代码。对于虚拟世界的生成,他们可以生成代码来提高常见元素(例如动物、车辆和云运动)的响应性和真实性。

代码生成器还可以用于将用户提示定制为其他生成人工智能模型或开发工具的特定格式输入。最近的一个例子是 NVIDIA 使用 GPT 模型来创建一个 Omniverse 扩展,该扩展支持在具有灵活格式化的基于文本的用户提示的3D 场景中自动检索和放置3D 对象。更具体地说,它们使用 GPT 模型将基于文本的用户提示转换为与其平台更相关的 JSON 数据。由于在元宇宙用例中使用代码生成器的实验研究仍然很少,因此将预计在长期内会有更多关于为这些用例定制代码生成器的研究。

其他一些更长期的方向包括生成人工智能在数字孪生生成和个性化方面的应用。对于自动数字孪生,模型可以用于自动生成属于数字孪生的不同内容类型。文本、图像、3D和音频生成器也可以通过不同形式的支持来增强用户界面。代码生成器可以自动生成系统行为的代码。文本到视频生成器可以提高真实感和生成速度。研究发现,用户的不同特征和偏好(例如,用户个性和讲故事以及用户个性和人工智能体的说服策略)之间存在相关性。可以根据用户的特征对模型进行微调,以生成首选内容。现有的用户个性检测工作(通过计算机视觉和模拟他们的认知过程)可以支持微调或与生成人工智能相结合。

在短期内,相信现有的其他 AIGC 类型的生成器可以最容易地应用于沉浸式合作写作的文本生成的内容创作(例如图10) ,整个艺术作品的图像/3D 生成(例如图11,图3,图5和图6) ,更复杂作品的视觉组件(例如游戏的图6) ,从现实世界重建的作品或创造性支持(例如,文本到图像的编辑和视觉指南的生成),为娱乐(例如游戏和电影)或更严谨的用例(例如演示和治疗)和基于语音的支持,为基于视频的内容(例如完整的电影,游戏动画和教程)和编辑支持的视频生成进行音频生成。从研究和图表中可以看出,现有的非代码生成器也可以很容易地应用于虚拟形象/NPC和虚拟世界生成

路线

作者认为,元宇宙中AIGC研究的发展可以分为5个阶段(图12)。目前正处于生成型人工智能热潮的开端,只有一些AIGC类型,主要是文本、代码和图像,达到了相对令人满意的质量,可以推广。主要的研究重点仍然局限于几个元宇宙应用领域:虚拟形象/NPC(主要是它们的物理外观)、内容创作(主要是创作工具)和虚拟世界生成(主要用于视觉和音频)。关于自动数字孪生生成和个性化(针对元宇宙)的研究很少。虽然对元宇宙AIGC的伦理研究很少,但作者认为,了解元宇宙AIGC研究对社会的影响对政策制定者和研究人员来说同样重要。考虑到对生成人工智能和元宇宙技术的现有伦理担忧,两者的结合可能会引发至少同样多的担忧。

Fig.3.由 Point-E 产生的点云的例子取自[61]

Fig.4. Rodin生成的3D虚拟数字人形象的例子取自[62]。从左到右,基于文本以及前置信息可将照片生成虚拟数字人形象。

Fig.5. DreamFusion 生成的3D 模型(每个例子的左边)和相应的无纹理渲染和法线(每个例子的右边)取自[63]。

Fig.6. 从skybox实验室下载的promopt信息为“雪地森林,满月”提示和“数字绘画”风格的skybox JPEG[64]

Fig.7. GPT-4可以为复杂的应用程序生成代码,例如JavaScript中的3D HTML游戏,如[51]中的图所示。本文包含了GPT-4的几个开发示例,可以扩展到更多的实验研究中

Fig.8. Make-A-Video生成的视频示例取自[70]。每一行的图像都是视频的帧。Make-A-Video可以生成具有连贯运动的高质量视频,以实现多种视觉概念

在不久的将来,相信硬件、算法和数据收集技术的进步将有助于AIGC在元宇宙中的早期采用,因为更多的搜索者将有资源研究更多的用例。希望研究的重点是用于内容创建的更复杂的AIGC类型,以及与用于虚拟世界生成的更多感官相关的AIGC。综述中的工作可以作为系统的基础,帮助用户生成更复杂的内容(例如沉浸式游戏和视频,它们主要是视觉和音频的组合)。现有的工作已经专注于视觉和听觉以外的感官,如嗅觉和触觉,但还需要对相关的生成进行更多的研究。鉴于其复杂性,元宇宙中现有和新的AIGC类型可能需要更多研究如何收集、改编自其他领域或生成其训练数据。例如,研究可以集中在如何将数据收集集成到用户应用程序中,例如训练模拟或类似于的工具。还希望对数字孪生创建的自动化、虚拟形象/NPC的外观及其在不同情况下的行为的多样性和真实性、训练模拟(例如环境的自动生成和与AI化身的交互),以及关于新的人类人工智能协同创作用例与新的AIGC类型或元宇宙的解释。还可以研究上述领域的代码生成。尽管 AIGC 在确保这些内容的耐久性方面发挥了作用,但很少有研究关注 AIGC 在元宇宙中的互操作性。随着对 AIGC 的研究越来越多,AIGC 的互操作性将成为研究的热点。随着更多的研究,伦理问题可能会变得更加具体到元宇宙中不同类型的AIGC用例。随着更多的内容创作,可能会把重点放在版权和所有权上。

随着AIGC融入元宇宙的大多数用例,作者预计研究重点将转向生成内容的优化。作者认为,质量问题主要受现实主义和个性化水平的影响。对现实主义的研究可以集中在生成环境和形象的逼真度上。对个性化的研究可以集中在内容对用户需求的适应上。鉴于元宇宙的使用更加广泛,伦理问题可能会集中在长期影响上。

Fig.9.按AIGC类型和相应模型/平台划分的元宇宙用例

当人工智能能够为大多数用户生成相对逼真的内容时,重点可能会转移到内容创建民主化和无障碍,通过界面设计或帮助那些经济能力差、没有必要技能和/或来自偏远地区的残疾人。研究也可以集中在他们的治疗、培训和重新融入社会上。伦理问题可集中在上述群体。

当元宇宙中的 AIGC 达到这些群体满意的质量时,研究的重点就可以放在 NPC 个性的真实性上。这样的研究可以使他们完成更广泛的社会和创造性任务。因此,政策可能侧重于问责制和NPC可以拥有的自主程度,这可能需要对NPC的身份及其权利和责任作出新的定义。

结论

作者根据5个应用领域(Avatars/NPC,内容创建,虚拟世界生成,自动数字孪生和个性化)提供了当前 AIGC 在元宇宙中的研究概述。发现很少有研究集中在最后两个方面。对于其他领域,应用程序是有限的。也发现很少有关于伦理和互操作性的研究。就AIGC类型而言,关于代码生成器在元宇宙中的应用的研究很少。在注意到研究的缺乏之后,回顾了最先进的生成算法、系统和平台,以便为每个应用领域提供不同 AIGC 类型的潜在用例的概述。作者还为未来的研究提出了5个阶段的路线图,每个阶段都可能涉及伦理问题。在不久的将来,预计会对非覆盖领域、数据可用性和更多AIGC类型进行更多研究。

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号