图文实录｜多模态自然语言处理最新进展_多模态自然语言处理的最新进展,澜舟科技

作者：喵喵爱编程 | 2024-07-03 01:00:20

踩

多模态自然语言处理的最新进展,澜舟科技

作者介绍

段楠，微软亚洲研究院自然语言计算组高级研究经理，中国科学技术大学兼职博导，天津大学兼职教授，主要从事自然语言处理、编程语言处理、多模态人工智能、机器推理等研究，多次担任NLP/AI/ML相关国际会议评测主席、高级领域主席和领域主席，发表学术论文100余篇。

本文根据段楠老师在「澜舟NLP分享会」上的演讲整理。文内梳理了视觉语言预训练近期工作，并分享了微软亚洲研究院在视觉语言预训练模型和视觉合成方面的研究。

背景

视觉语言预训练

背景

近三年来，基于 Transformer 和自监督预训练的语言模型取得了非常瞩目的成绩。这些模型通过自回归、降噪自编码器、对比学习等自监督学习任务，能够从海量的单语或者多语语料中学习到语言的通用表示，然后通过微调等方式适配到各种各样的下游任务上去，例如问答、文本生成、机器翻译等。

与此同时，随着视觉领域 VQVAE、一些聚类算法等的发展，以及语音领域上一些离散化方法的发展，我们实际上可以将视觉数据和语音数据也转换成类似语言序列的离散符号的序列表示。由于这种底层数据表示的一致性，多模态任务的建模方法也非常快速地趋同，这也是多模态能够成为人工智能领域一个非常前沿的研究的原因。

在这样的背景下，本文将深入介绍微软亚洲研究院最近在两个多模态相关的工作，一个是视觉语言预训练模型，另一个是视觉合成方面的研究。

图文实录｜多模态自然语言处理最新进展_多模态自然语言处理的最新进展,澜舟科技

背景

视觉语言预训练

相关工作梳理