赞
踩
可以将不同语言、不同形式的媒体或多种知识源融入预训练模型的学习过程中,将这些不同模态的数据表示在相同的向量空间内,从而在不同模态之间建立一座信息交互、知识迁移的桥梁。
融合多语言的预训练模型将不同语言符号统一表示在相同的语义向量空间内,从而达到跨语言处理的目的。
应用场景:
谷歌公司在发布单语言 BERT 模型的同时,还发布了一个直接在维基百科中数据量最多的前104种语言上训练的多语言 BERT 模型(Multilingual BERT,mBERT),其能够将多种语言表示在相同的语义空间中。
多语言BERT模型采用与单语言BERT相同的预训练任务和模型结构,并且所有语言共享相同的模型。由于使用的是多语言数据,因此多语言BERT中的掩码语言模型也被称作多语言掩码语言模型(Multilingual Masked Language Modeling,MMLM)。
为了解决单语语料库共享词汇过少的问题,Facebook提出了跨语言预训练语言模型(Cross-lingual Language Model Pretraining,XLM)。
XLM 进行了改进,提出了 XLM-R (XLM-RoBERTa)模型。XLM-R的模型结构与RoBERTa一致,而与XLM最大的区别在于取消了翻译语言模型的预训练任务,从而不再依赖双语平行语料库。
最直接的应用方式是零样本迁移(Zero-shot transfer),即首先在资源丰富的源语言(如英语)上,针对下游任务进行多语言预训练语言模型的精调,然后将精调后的模型直接应用于目标语言,进行下游任务的预测。
与融合多语言类似,在预训练模型中还可以融合多种媒体的数据,从而打通语言与图像、视频等其他媒体之间的界限。
VideoBERT 是第一个多媒体预训练模型,其预训练数据来自视频及对应的文本字幕。
预训练好的VideoBERT可以直接用于视频检索等任务,如输入一段文本,返回该文本对应的视频。另外,也可以将VideoBERT迁移到下游任务,如生成更好的视频字幕等。
VL-BERT是一种用于图像和文本的预训练模型,使用图像及其对应的描述文本预训练。
OpenAI发布了一个被称为DALL·E的跨媒体预训练生成模型。与VL-BERT类似,也是使用图像及其对应的描述文本预训练。
DALL·E能够根据输入的自然语言文本生成相应的图像。即便输入的语言表达了一个现在世界上可能不存在的物体,也能够生成一个结果,这为艺术创造或工业设计提供了灵感。
以ALIGN为代表的多媒体预训练模型直接采用“图像–文本”对作为预训练数据,并采用对比学习技术,即将数据中存在的“图像–文本”对作为正例,并通过随机采样的图像或文本对作为负例学习模型的参数。
来自不同自然语言处理任务的由人工构建的标注数据,也被认为是另一种形态的“知识”。这里统一将这些知识称为“异构知识”。
为了构建知识增强的预训练模型,需要解决两个问题:
(1)使用什么类型的知识?
(2)如何在预训练模型中有效地融入异构知识?
命名实体
连接自然语言与现实世界的一个重要的信息纽带。
为了使预训练模型学习到归纳偏置,在预训练任务中引入相应的实体信息。
基于这一思想,百度的研究人员提出了ERNIE模型。该模型在BERT模型的基础上,通过改进掩码策略融入短语和实体知识。
三种掩码策略:
ERNIE 模型主要利用了输入文本中较为浅层的实体指称信息,方法简单且直接。
为了进一步提升预训练模型的表示学习能力,研究人员试图显式地将关于实体的外部知识库融入预训练模型,通过将实体语义与真实世界中的概念关联,获取增强的文本表示。其中比较具有代表性的是KnowBERT 模型。
KnowBERT模型试图融合的是一种通用的实体知识,任何能够用于获取实体向量表示的知识形式都被囊括在其框架之内。
KnowBERT模型的训练目标仍然使用掩码语言模型,但是由于实体知识的引入以及与实体链指模型的结合,KnowBERT模型在词义消歧以及信息抽取类任务上相比原始的BERT模具有显著的优势。
知识图谱
知识图谱是一种由实体以及实体关系构成的语义网络,通常可以表示为一系列由(实体1,关系,实体2)以及(实体,属性,属性值)等事实型三元组构成的集合,目前,知识图谱已经被广泛
应用于智能搜索、自动问答和个性化推荐等领域。
为了将知识图谱融入预训练模型,清华大学与华为诺亚方舟实验室的研究人员提出了ERNIETHU模型。
ERNIETHU模型在BERT模型文本编码器(T-Encoder)的基础之上增加了一个知识编码器。
一种常用的用于提升模型能力的迁移学习技术。
MT-DNN
微软提出的MT-DNN模型是一个简单有效的尝试。MT-DNN的模型主要包含两个部分,分别是多任务的共享编码层(与BERT一致)以及任务相关的输出层。
ERNIE 2.0
百度的研究人员在ERNIE模型的基础之上做了改进,分别从词法、句法及语义层面构造了更加丰富的预训练任务,并通过连续多任务学习的方式进行增量式预训练。
输出层分别对应以下预训练任务:
除了多语言、多媒体和异构数据,还有很多数据来自其他的模态,如页面的布局信息和表格信息等。
LayoutLM等模型正是在预训练阶段利用了富文档中的页面布局信息,有效提高了富文档内容的理解能力。
LayoutLMv2更是在LayoutLM的基础上,引入了原始的图像信息,在文档视觉问答、文档图像分类和文档内文字序列标注等多种文档理解相关任务上取得了很好的效果。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。