赞
踩
论文地址:Stacked DeBERT: All Attention in Incomplete Data for Text Classification
项目地址:https://github.com/gcunhase/StackedDeBERT
我们提出将去噪BERT (DeBERT)叠加作为一种新颖的编码方案,用于对不正确的句子进行不完全的意图分类和情绪分类。如图1所示,该模型的结构为嵌入层和普通变压器层的叠加,类似于传统的BERT[11],然后是新型降噪Transformer层。该模型的主要目的是通过对含有缺失词的句子进行隐藏嵌入重构,提高BERT对不完整数据的鲁棒性和有效性。通过重构这些隐藏的嵌入,我们可以改进BERT的编码方案。
图1:提出的叠加BERT模型分为三层:嵌入层、常规双向Transformer层和去噪双向Transformer层。
该模型的初始部分是传统的BERT,一个多层双向Transformer编码器和一个强大的语言模型。在训练过程中,BERT对不完整的文本分类语料库进行微调(见第3节)。它还用特殊字符“[CLS]”作为标记序列的前缀,用“[SEP]”字符作为每个句子的后缀。然后是一个用于输入表示的嵌入层,最后的输入嵌入是一组令牌嵌入、分段嵌入和位置嵌入。第一个是令牌嵌入层,它使用词汇表字典将每个令牌转换为更具代表性的嵌入。分段嵌入层通过标记1或0来指示哪些标记构成一个句子。在我们的例子中,由于我们的数据是由单个句子组成的,所以在第一个‘[SEP]’字符出现之前(表示片段A),然后它变成了0(片段B)。正如名称所示,位置嵌入层添加了与令牌在句子中的位置相关的信息。这为普通双向Transformer层考虑的数据做了准备,它输出一个隐藏的嵌入,可以被我们的新型去噪Transformer层使用。
尽管BERT在处理不完整的数据时表现得比其他基线模型更好,但它仍然不足以完整和有效地处理这些数据。因此,需要进一步改进从缺词句子中得到的隐含特征向量。基于这一目的,我们实现了一种新的编码方案,该方案由去噪Transformer和双向Transformer组成,其中去噪Transformer由多层感知器堆栈组成,通过提取更抽象和有意义的隐藏特征向量来重建缺失的词嵌入,而双向Transformer则用于改进嵌入表示。嵌入重构步骤以从不完整数据
多层感知器的堆栈结构是由三层构成的两组,每组包含两个隐藏层。第一个集合负责将
其中f(·)为参数化函数,将
其中g(·)是将z重构为的参数化函数
通过均方误差损失函数将重构后的隐藏句嵌入
根据不完全句重构出正确的隐藏嵌入后,将正确的隐藏嵌入提供给双向Transformer以生成输入表示。然后,在不完整的文本分类c上,以端到端方式对模型进行微调。
利用前馈网络和softmax激活函数进行分类。Softmax σ为数控类是一个离散型概率分布函数,类概率的总和是1和预测类的最大价值。所预测的类可以用公式进行数学计算:
其中o = W t + b,用于分类的前馈层的输出。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。