Learning Disentangled Representations of Negation and Uncertainty_private-shared disentangled multimodal vae for lea

private-shared disentangled multimodal vae for learning of latent representa


Jake Vasilakes 1 , Chrysoula Zerva 2,3 , Makoto Miwa 4,5 , Sophia Ananiadou 1,5 1 National Centre for Text Mining, Department of Computer Science, The University of Manchester 2 Instituto Superior Técnico, 3 Instituto de Telecomunicações 4 Toyota Technological Institute 5 Artificial Intelligence Research Center, National Institute of Advanced Industrial Science and Technology {jake.vasilakes, sophia.ananiadou}@manchester.ac.uk , chrysoula.zerva@tecnico.ulisboa.pt makoto-miwa@toyota-ti.ac.jp






    变异因素的分解表征学习(DRL)可以提高表征的稳健性及其在任务中的适用性(Bengio et al.,2013)。具体而言,否定和不确定性对于下游NLP任务非常重要,如情绪分析(Benamara et al.,2012;Wiegand et al.,2010)、问答(Yatskar,2019;Yang et al.,2016)和信息提取(Stenetorp et al.,2012)。因此,将否定和不确定性分离可以为这些任务提供可靠的表示,将它们与内容分离可以帮助完成依赖于核心内容保存的任务,如受控生成(Logeswaran et al.,2018)和抽象总结(Maynez et al.,2020)。
    然而,正如语言学理论所表明的那样,之前的工作还没有测试是否可以分解否定、不确定性和内容,尽管之前的工作有分解的属性,如语法、语义和风格(Balasubramanian et al.,2021;John et al.,2019;Cheng et al.,2020b;Bao et al.,2019;Hu et al.,2017;Colombo et al.,2021)。为了填补这一空白,我们的目标是回答以下研究问题:RQ1:是否有可能估计一个支持否定、不确定性和内容之间拟议的统计独立性的陈述模型?。


    在解决这些研究问题时,我们做出了以下贡献:1。生成模型:我们提出了一个语句的生成模型,其中否定、不确定性和内容是独立的潜在变量。继之前的工作之后,我们使用变分自动编码器(VAE)(Kingma and Welling,2014;Bowman et al.,2016)对该模型进行了评估,并通过一套评估指标对现有辅助目标进行了比较,以实施分解。
    3、数据扩充:包含否定和不确定性注释的数据集相对较小(Farkas et al.,2010;Vincze et al.,2008;Jiménez Zafra et al.,2018),根据我们的初步实验,这导致句子重建较差。为了解决这一问题,我们使用一个简单的朴素贝叶斯分类器为大量amazon 3和Yelp 4评论生成弱标签,该分类器在一个较小的英语评论数据集上进行了训练的,该数据集对否定和不确定性进行了注记(Kon-stantinova et al.,2012),并使用它来估计我们的模型。详情见第4.1.1节。



2.1 NLP中的否定和不确定性

    否定和不确定性有助于确定文本中陈述和事件的断言准确性(Saurí和Pustejovsky,2009;Thompson et al.,2017;Kilicoglu et al.,2017),这对于处理知识和信仰的NLP下游任务至关重要。例如,否定检测为情绪分析提供了强有力的线索(Barnes等人,2021;Ribeiro等人,2020),不确定性检测有助于虚假新闻检测(Choy和Chong,2018)。之前关于否定和不确定性处理的工作重点是线索识别和范围检测的分类任务(Farkas等人,2010),使用条件随机场(CRF)等序列模型(Jiménez-Zafra等人,2020;Li和Lu,2018),卷积和递归神经网络(CNN和RNN)(Qian等人,2016;Adel和Schütze,2017;Ren等人,2018),LSTM(Fancellu等人,2016;Lazib等人,2019),以及最近的transformer架构(Khandelwal和Sawant,2020;Lin等人,2020;Zhao和Bethard,2020)。


    目前还没有一致同意的解纠缠定义。关于DRL的早期工作试图学习单个向量空间,其中每个维度独立于其他维度,并表示所建模对象的一个地面真值生成因子(Higgins et al.,2016)。Higgins et al.(2018)给出了一个群论定义,根据该定义,生成因子被映射到独立的向量空间。这个定义放松了先前的假设,即表示应该是一维的,并根据不变性的概念形式化了分离的概念。Shu et al.(2019)将不变性要求分解为一致性和限制性,描述了表示和生成因子之间不变性的具体理想属性。除了独立性和不变性之外,可解释性也是分解的一个重要标准。Hig-gins等人(2016年)指出,虽然PCA等方法能够学习独立的潜在代表性,但由于这些方法不能代表可解释的变异因素,因此无法分解。因此,我们希望我们所学的表述能够预测有意义的变化因素。我们采用伊斯特伍德和威廉姆斯(2018)的术语“信息性”来表示这一要求。
    以前关于DRL for text的工作都使用某种形式的监督来加强潜在表征的信息性。Hu et al.(2017)、John et al.(2019)、Cheng et al.(2020b)和Bao et al。
    之前关于文本DRL的这些工作都使用了类似的架构:序列VAE(Kingma and Welling,2014;Bowman et al.,2016)将输入映射到L个不同的向量空间,每个向量空间都被限制为通过监督信号表示不同的目标生成因子。我们还将此总体架构用于模型估计,并将其用作基于对抗式学习(John et al.,2019;Bao et al.,2019)和互信息最小化(Cheng et al.,2020b)的现有分离目标试验的基础,如第3.4节所述。然而,与之前学习所有潜在因素的高维表示的工作不同,我们的目标是根据二元函数学习否定变量和不确定性变量的一维表示。




    与标准自动编码器不同,VAE在潜在表示空间Z(通常为标准高斯)上施加先验分布,并用神经网络参数化后验qφ(Z | x)的学习近似值代替确定性编码器。除了尽可能减少输入和重建之间的损失,如在标准AE中,VAE使用额外的KL散度项来保持近似的后验分布接近先验分布。
    在我们的实现中,三个线性层将BiLSTM编码器的最终隐藏状态映射到三组高斯分布参数(µ,σ),这些参数化了否定、不确定性和内容潜在分布∈ {n,u,c},分别。因为我们将每个输入映射到三个不同的潜在空间,所以我们在公式(1)中给出的证据下限(ELBO)训练目标中包括三个KL散度项

    其中φ表示编码器的参数,θ表示解码器的参数,p(z())是标准高斯先验,β超参数加权每个潜在空间的KL散度项∈ L
    我们使用一维否定和不确定性空间以及62维内容空间,总潜在大小为64。值得注意的是,我们不监督内容空间,不像以前的作品(John et al.,2019;Cheng et al.,2020b),这些作品通过预测输入的单词包来监督内容空间。这种监督技术会鼓励内容空间预测否定和不确定性线索,从而阻碍分离。因此,在我们的模型中,我们定义了三个潜在空间∈ {n,u,c}但仅使用来自2个目标生成因子k的信号∈ {n,u}。
图3:与L ELBO+L INF目标相对应的拟议架构(见第3.4节)。由φ参数化的BiL-STM编码器将每个输入示例x映射到三个不同的分布,从中对潜在表示z()进行采样。然后将否定z(n)和不确定性z(u)潜在空间传递给线性分类器,由ψ()参数化,试图预测基本真值因子。最后,潜在值初始化由θ参数化的LSTM解码器,该解码器尝试重构输入。


    1、信息性:表述应能预测地面真相生成因素(Higgins et al.,2016;Eastwood and Williams,2018);2、独立性:每个相关生成因子的表示应位于独立向量空间中(Higgins et al.,2018);3、不变性:从数据到表示的映射应该对其他生成因素的变化保持不变(Higgins et al.,2018;Shu et al.,2019);以下部分详细介绍了我们的模型如何增强这些需求。


    继伊斯特伍德和威廉姆斯(2018)之后,我们通过预测相应生成因子的能力来衡量表征的信息性。与之前关于文本DRL的工作类似(John et al.,2019;Cheng et al.,2020b),我们在每个潜在空间上训练监督线性分类器5,并反向传播预测误差。因此,除了方程式(1)中的ELBO目标外,我们还为否定和不确定性定义了信息性目标



    ( 2021 ).
    对抗性目标。对抗性目标(ADV)由两部分组成:1)对抗性分类器试图从每个潜在空间预测所有非目标因素的值;2) 旨在最大化敌对分类器预测分布的熵的损失。
    对于给定的潜在空间,一组线性分类因子分别预测每个非目标因子k 6=的值,并计算每个非目标因子的二元交叉熵损失

    例如,我们为内容空间=c引入了两个这样的分类器,一个用于预测否定,另一个用于预测不确定性,k∈ {n,u}。重要的是,这些分类器的预测错误不会反向传播到VAE的其余部分。我们为每个敌对分类器增加了一个额外的目标,目的是使其预测分布尽可能接近均匀分布。我们按照John et al.(2019)和Fu et al.(2018)的方法,通过最大化预测分布的熵(方程(4))并反向传播误差来实现这一点


    其中,ÎCLUB(I;j)是MI的对比学习上限(CLUB)估计值(Cheng等人,2020a)。具体而言,我们引入一个单独的神经网络来近似条件变分分布pσ(i | j),该网络用于使用潜在空间的样本估计MI的上界。





    我们使用SFU评论语料库(Konstantinova et al.,2012)作为主要数据集。该语料库包含17000个来自各种英语产品评论的句子,最初用于情感分析,用否定和不确定性线索及其范围进行注释。许多SFU句子都很长(>30个tokens),初步实验表明,这会导致重建效果不佳。因此,我们利用SFU的带注释语句连词tokens将多语句语句拆分为单语句语句语句,以降低复杂性并增加示例数量。此外,为了降低复杂性,我们在之前的工作之后删除了>15个tokens的句子(Hu et al.,2017),从而产生了14000个句子。


    尽管做出了上述努力,我们发现仅SFU语料库不足以获得流畅的重建。因此,我们使用两个具有单词袋(BOW)特征6的朴素贝叶斯分类器,为大量额外的亚马逊和Yelp评论数据生成了弱否定和不确定性标签。这些分类器分别在SFU训练分割中进行训练的,以预测句子层面的否定和不确定性。Amazon和Yelp数据集很好地适应了SFU的数据分布,也包括用户评论,并已在之前的文本DRL工作中使用,并取得了良好的效果(John et al.,2019;Cheng et al.,2020b)7。附录C总结了SFU+亚马逊组合数据集的统计数据。在附录D中,我们对SFU+Yelp组合数据集进行了补充评估。


    评估模型重构输入的能力也很重要。具体而言,我们的目标是重建忠实度(即输入和重建匹配的程度)和流畅度。我们根据模型保留否定、不确定性和输入内容的能力来评估忠诚度。通过对重构进行重新编码,根据重新编码的潜在值预测否定和不确定状态,并根据基本真值标签8计算精度、回忆和F1分数,来衡量否定和不确定度保留。继之前的工作之后,我们通过计算输入和重构(自BLEU)之间的BLEU分数,近似计算在没有任何明确内容注释的情况下的内容保存度量(Bao等人,2019年;Cheng等人,2020b;Balasubramanian等人,2021)。我们通过计算GPT-2下的困惑(PPL)来评估重建的流畅性,GPT-2是一种强大的通用领域语言模型(Radford et al.,2019)。


表1:各潜在因子和因子之间的互信息估计。每个因素的潜在空间分类器的精度、召回率和F1。n:否定。u:不确定性。c:内容。所示为从SFU+亚马逊测试集上每个示例的30个潜在分布重采样计算的平均值。因为它们的结果类似于L ELBO+L INF+L ADV+L MIN,所以不包括L ELBO+{L ADV,L MIN}以节省空间。我们提供了一组更广泛的结果,涵盖表10中的所有模型。
图5:在测试集上计算的否定因子和不确定因子的每个分解目标的互信息差距(MIG)方框图。基线ELBO目标的MIG值太小,无法包含在该图中≈ 0 . 014表示否定和不确定性。


    图5给出了否定因子和不确定因子的MIG值方框图。我们再次看到,INF目标单独导致不雅的分解,MIG中值≈ 0 . 4.
    ADV和MI目标提供了MIG的类似增加,达到≈ 0 . 55表示否定和不确定,它们的组合ADV+MIN进一步提高MIG,达到≈ 0 . 6,表明这些目标是互补的。
表3:每个模型在每次数据分割时的重建自我BLEU和重建困惑(PPL)。使用GPT-2计算困惑(Radford et al.,2019)。





    将一个句子从否定变为正或从不确定变为确定,通常需要删除提示tokens(例如,not、never、may),而相反的方向需要添加它们。通过内容表示和tokens数量之间的线性回归,我们发现内容空间对句子长度的信息量很大,这有效地阻止了解码器添加所需的否定或不确定性tokens 10。人工检查正确和错误修改的句子表明,解码器试图通过修改输入中的tokens来表示否定/不确定性状态,而不是添加或删除它们,以满足长度限制。当需要删除时,提示token通常被与表示一致的新tokens替换。然而,只有在可能将现有的token更改为提示token时,才会包含否定/不确定性提示tokens。附录C.3中给出了线性回归的详细信息以及成功/失败传输的示例。






    本文基于新能源和工业技术发展组织(NEDO)委托的JPNP20006项目的结果。这项工作还得到了曼彻斯特大学校长博士奖学金、曼彻斯特大学与人工智能研究中心、欧洲研究理事会(ERC StG DeepSPIN 758969)的合作,以及通过UIDB/50008/2020合同获得的技术合作基金会的支持。


