赞
踩
学习NLP领域知识时,先从情感分析入手。
在网上看到一篇方面级的情感分析综述性文章,觉得挺好的就找到其原来的论文进行阅读。
原文:《A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges》
原文地址:https://arxiv.org/abs/2203.01054
注:内容大体是原文翻译,我只是做了小幅度的调整方便阅读。
基于方面的情感分析(ABSA),旨在分析和理解人们的意见在方面的水平,它一个重要的细粒度情感分析问题。为处理不同场景下的ABSA,引入了各种任务来分析不同的情感元素及其关系,主要从以下四点:
早期的ABSA作品专注于单个情感元素,近年来的研究涉及多个元素的复合ABSA任务,以捕获更完整的方面级情感信息。然而,各种ABSA任务及其相应的解决方案的系统回顾仍然缺乏,因此本文作者的目的正是填补这个空缺。
作者为ABSA提供了一种新的分类方法,它从相关情绪元素的轴上组织现有的研究,重点介绍了复合ABSA任务的最新进展。从解决方案的角度,总结了ABSA的预训练语言模型的使用,它提高了ABSA的性能到一个新的阶段。此外,在跨领域/语言的情况下,建立更实用的ABSA系统的技术进行了讨论。最后回顾了一些新兴的主题,并讨论了一些开放的挑战,展望未来的ABSA的潜在方向。
在线内容中的意见挖掘对广泛应用至关重要,如电商平台的客户情绪及原因分析,可优化产品与营销。但是庞大文本难以手动处理,需自动化框架分析非结构化文本中的意见,因此出现了情绪分析与意见挖掘研究的发展。
传统的情感分析主要是在句子或文档级别进行预测,但是一段文字不一定只有一种情感,所以这种情感分析方法在实践中并不总是成立。
细粒度的方面级情感分析(ABSA)则关注实体或其某个方面的情感表达,如电商中的产品及其属性(价格、尺寸等)。它通过在方面级别构建全面的意见摘要,为下游应用提供细粒度的情感信息。
通常,ABSA的主要研究路线涉及识别各种方面级别的情感元素,即方面术语、方面类别、意见术语和情感极性。如下图所示,给定一个句子“The pizza is delicious.",相应的情感元素分别是“pizza”, “food”, “delicious”和“positive”,其中“pizza”和“delicious”是明确表达的,“food”和“positive”属于预定义的类别和情感集合。
ABSA的早期工作是分别识别每个情感元素。
然而,要理解更完整的观点,单个情感元素的提取还远远不够,这不仅需要多个情感元素的提取,还需要识别它们之间的对应关系和依赖关系。
近年来引入了几个新的ABSA任务以及相应的基准数据集,以便于对多个情感元素的联合预测进行研究。这些任务被称为复合ABSA任务,与仅涉及单个情感元素的单个ABSA任务形成对比,它提供了一个更清楚地了解所述的意见对象及其相关的意见表达是什么。
如:方面-意见对(AOPE)提取任务要求以复合形式提取方面及其相关联的意见项-(pizza,delicious)。
由于现有研究缺乏系统回顾,尤其对复合ABSA任务的进展不足,因此作者通过本文希望弥补这一空白。
BERT和RoBERTa等预训练语言模型(PLM)的出现近年来为ABSA任务带来了实质性的改进。以PLM为骨干,ABSA模型的泛化能力和鲁棒性得到了显著提高。
例如:Li等人表明,使用一个简单的线性分类层堆叠在BERT之上,可以实现比以前专门设计的端到端ABSA任务的神经模型更具竞争力的性能。
虽然基于PLM构建ABSA模型已经变得无处不在,但由于其出版时间较短,在现有调查中没有讨论。因此,本文作者提供了一个深入的分析现有的基于PLM的ABSA模型,讨论他们的进步和局限性。
ABSA模型常假设训练与测试数据同分布。面对跨域或跨语言挑战,重新训练成本高且数据难获。跨域传输与跨语言迁移为ABSA系统提供了适应新环境的有效替代方案,无需大量额外标记数据,即可推广至不同领域和语言。
现有ABSA调查多未涵盖最新进展、跨域/语言迁移及PLM影响。早期研究侧重非神经方法,近期则偏向深度学习,但多限于单一任务,在端到端ABSA任务上有一些开创性的工作。对于全面回顾ABSA任务、PLM影响及跨域/语言迁移的文献尚缺。
本文的主要目标是从现代视角系统地回顾ABSA问题的进展和挑战。
具体而言,作者提供了一个新的分类ABSA组织各种ABSA的研究,从关注的情感元素的轴,重点是近年来的复合ABSA的研究任务。
沿着这个方向,作者讨论和总结了各种方法提出的每一个任务。
此外,作者还研究了利用预先训练的语言模型解决ABSA问题的潜力和局限性。
本文还对跨领域、跨语言ABSA的研究成果进行了总结。
最后,讨论了一些新的趋势和开放的挑战,旨在阐明这一领域的潜在未来方向。
一般的情感分析问题包括两个关键部分:目标和情感。
对于ABSA,目标可以用方面类别c或方面术语a来描述,而情感涉及详细的意见表达-意见术语o和一般的情感取向-情感极性p。这四个情感元素构成了ABSA研究的主线,也避免了混乱:
方面类别c指的是一个实体所具有的独特方面,这些方面属于一个为特定领域预定义的类别集合C种。
例如,食物和服务可以是餐厅领域的方面类别。
方面术语a是明确出现在给定文本中的意见目标。
例如,“The pizza is delicious."中的“pizza”就是一个方面术语。
当目标被隐式表达时(例如,“它被定价过高了!”),我们可以将该方面术语表示为一个名为“null”的特殊术语。
意见术语o是意见持有人为表达其对目标的感情所作的表达。
例如,“The pizza is delicious."中的“delicious”就是一个意见术语。
情感极性p描述了情绪在一个方面类别或一个方面术语上的方向,它通常属于积极、消极和中性。
由上一节得到ABSA的4大要素,对ABSA定义如下:
ABSA是识别关注文本项的感兴趣的情感元素的问题,可以是单个情感元素,也可以是多个元素之间的依赖关系。
根据期望的输出是单个情感元素还是多个复合元素,可以将ABSA任务分类为单个ABSA任务和复合ABSA任务。
例如:
①方面术语提取(ATE)是一个单一的ABSA任务,其目的是提取给定句子的所有方面术语;
②方面-意见对抽取(AOPE)任务是一个复合ABSA任务,因为它提取所有(a,o)对。
从这个角度来看,作者提出了一个新的分类ABSA,系统地组织现有的作品,从有关的情感元素的轴。图2概述了不同的ABSA任务和每个任务的代表性方法。
以下几种主流的NLP建模范式通常用于ABSA任务:序列级分类(SeqClass)、令牌级分类(TokenClass)、机器阅读理解(MRC)和序列到序列建模(Seq 2Seq)。
每个范例表示一个通用的计算框架,用于处理特定的输入和输出格式。因此,通过将任务制定为特定格式,可以使用相同的范式来解决多个任务。
【注:这张图在我看的论文没有,从别的博主那看到的,感觉同一篇论文里,他们看的跟我看的有点微弱的出入:基于aspect的情感分析综述 论文翻译笔记 A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges-CSDN博客】
除了这四种以端到端方式处理任务的统一范例之外,一些复杂的ABSA任务可以通过管道(Pipeline)范例来解决,该范例通过多个模型来进行最终预测。
对于序列级分类,模型通常首先将输入文本X馈送到编码器Enc(·)中以提取任务特定的特征,然后是分类器CLS(·)以预测标签Y,Y可以表示为One-hot或multi-hot向量(分别用于单标签和多标签分类)。
①.在深度学习时代,编码器Enc(·)可以是卷积网络,递归网络或用于提取上下文特征的transformer。
②.在某些情况下,输入文本X可以包含多个部分。
例如,对于方面情感分类任务,句子和特定方面都被视为输入。然后编码器不仅需要提取有用的特征,还需要捕获输入之间的交互。
③分类器CLS(·)通常被实现为具有池化层的多层感知器来进行分类。
序列标记将标签分配给输入文本中的每个标记。
① 用编码器Enc(·)将输入文本编码成上下文化特征;
② 用解码器Dec(·)来预测标签y1,.,yn。
其中Dec(·)可以实现为具有softmax层的多层感知器,或者条件随机场(CRF)。也可以使用不同的标记方案,例如,BIOES标记方案(B开头,I内部,O外部,E结尾,S单例)。
机器阅读理解,从给定查询Xq条件下的输入文本X中提取连续文本范围。
因此,具有MRC范例的ABSA方法需要为相应的任务构造特定于任务的查询。例如:
① 在ATE任务中,Xq可以被构造为:“What are the aspect terms?”;
② 原始文本以及构造的查询可以用作MRC模型的输入,以提取aspect terms方面术语的文本范围;
③ 通过预测文本范围的开始位置ys和结束位置ye来产生结果。
其中,通常存在两个线性分类器,堆叠在编码器Enc(·)的顶部,用于分别预测开始和结束位置。
Seq2Seq框架采用输入序列X = {x1,...,xn}作为输入,旨在生成输出序列Y = {y1,...,ym}。
经典NLP应用是机器翻译任务,它还可用于解决ABSA任务。例如:
① 在给定所述输入句子的情况下,直接生成所述标签序列或期望的情感元素。
② 以ATE任务为例,X可以是“The fish dish is fresh”,Y可以是自然语言形式的“fish dish”。
③ 它通常采用编码器-解码器模型,例如Transformer:
其中编码器Enc(·)对输入的上下文化特征进行编码,解码器Dec(·)基于编码的输入和先前的输出,在每一步生成令牌。
管道方法顺序地用可能不同的模型范例来输送多个模型以获得最终结果。前一个模型的预测被用作后一个模型的输入,直到产生最终输出。
例如,上述AOPE问题旨在提取所有(方面术语,意见术语)对。因此,一个简单的管道方法解决方案是首先使用ATE模型来提取潜在的方面术语,然后采用另一个模型来识别每个预测的方面术语的相应意见术语。然后,有效的预测可以被组织为(方面项,意见项)对作为最终结果。
与前面描述的以端到端方式解决原始问题的统一范例相比,管道方法通常更容易实现,因为每个子问题的解决方案通常已经存在。然而,它遭受错误传播问题,即,由早期模型产生的误差将传播到后来的模型并影响最终的总体性能。
回到上面的例子,如果ATE模型产生错误的预测,那么无论第二个模型有多准确,最终的配对提取结果都是不正确的。考虑到即使是简单的ABSA任务的性能也不完美,管道方法在复合ABSA任务上的性能往往很差,特别是复杂的任务。这通常是近年来设计一个统一模型来处理复合ABSA任务的主要动机。
以下是一些常见的数据集及其语言、数据域和URL的概述。
【注:有关数据集的介绍这里我没有放出来,有兴趣的可以看原论文了解】
在评估指标方面,精确匹配评估被广泛应用于各种任务和数据集:当且仅当所有预测元素与人类注释相同时,预测才是正确的。然后,可以据此计算出典型的分类指标,如准确性accuracy、精度precision、召回率recall和F1分数,并用于不同方法之间的比较。
方面术语提取ATE旨在提取用户在给定文本中表达意见的显式方面表达式。
例如,在句子“The pizza is delicious, but the service is terrible.”中,提取出“pizza”和“service”两个方面的术语。
根据标记数据的可用性,ATE方法可分为三种类型:有监督、半监督和无监督方法。
由于所需要的方面术语aspect term通常是句子中的单个词或短语,所以在给定被标记的 ATE 数据后,有监督的 ATE 问题通常被制定为token-level分类任务。
因此人们提出了基于CRF、RNN和CNN的序列标记方法。
由于ATE需要特定领域的知识来识别给定领域中的各个方面,许多研究工作都致力于改善word representation学习。
· Yin等人利用依赖路径在嵌入空间中链接单词,学习单词表示。
· Xu等人提出的DE-CNN模型采用了双重嵌入机制,包括通用嵌入和特定领域的嵌入。
· Xu等人进一步对特定领域的数据进行训练后的BERT,以获得更好的单词表示。
· Yin等人设计了一个基于位置依赖的词嵌入(POD),同时考虑依赖关系和位置上下文。
还提出了具体的网络设计,例如:
建模方面及其相应的意见表达之间的关系,并将任务转换为Seq2Seq问题,以捕获整个句子的整体含义,从而预测具有更丰富上下文信息的方面。
由于有监督ATE方法需要大量的标记数据,特别是在训练非常复杂的神经模型时。巨大的准备工作激发了半监督ATE研究的趋势。
给定一组标记的ATE数据,以及相对大的未标记数据集(例如,简单的评论句子),数据增强是产生更多用于训练ATE模型的伪标记数据的有效解决方案。
已经提出了各种增强策略,例如掩码序列到序列生成,软原型生成和渐进式自训练。
无监督ATE任务旨在提取没有任何标记数据的方面术语,并在文献中进行了广泛研究。在基于神经网络的方法的背景下:
· He等人提出了一种名为基于注意力的方面提取(ABAE)的自动编码器模型,该模型淡化了不相关的单词,以提高提取方面的一致性。
· 按照这个方向,Luo等人在构建句子表示时利用义位来增强词汇语义。
· Liao等人提出了一种耦合局部和全局上下文(LCC+GBC)的神经模型来发现体词。
· Tulkens和van Cranenburgh提出了一种名为CAt的简单解决方案,其中他们仅使用POS标记器和域内词嵌入来提取体术语:POS标记器首先提取名词作为候选体,然后采用对比注意机制来选择体。
· Shi等人将问题表述为一个自我监督的对比学习任务,以学习更好的方面表示。
方面类别检测ACD是为一个给定的句子识别所讨论的方面类别,其中的类别属于一个预定义的类别集,通常是特定于领域的。
与ATE任务相比,ACD可以从两个方面受益:
① ATE预测单个方面术语,而ACD的预测类别可以被视为聚合预测,这更简洁地呈现意见目标。
② 即使没有明确提及,ACD也可以识别意见目标。例如,给定一个句子“It is very overpriced and not tasty”,ACD可以检测价格price和食物food两个方面类别,而ATE不适用于这种情况。
ACD可分为有监督ACD和无监督ACD。
有监督的ACD任务通常被定义为一个多标签分类(即SeqClass)问题,将每个方面的类别视为一个标签。
为了以无监督的方式处理ACD任务,它通常被分解为两个步骤:
(1)提取候选方面术语aspect term;
(2)将方面术语映射或聚类到预定义的类别集中的方面类别aspect category。
例如,将“pizze”和“pasta”聚类到方面类别的食物。
第一步本质上与解决无监督的ATE问题相同。
第二步最直接的解决方案是从第一步开始为每个检测到的方面簇手动分配一个标签作为方面类别,但这是耗时的,当检测到的方面有噪声时可能会导致错误。
在CAt中,计算句子向量和类别向量之间的余弦相似度来分配类别标签。
最近,Shi等人提出了一种高分辨率的选择性映射策略来提高映射的精度。
意见术语提取OTE是识别对某个方面的观点表达的任务。
由于意见术语和方面术语总是同时出现,因此仅提取意见术语而不考虑其相关联的方面是没有意义的。
根据方面项是否出现在输入或输出中,OTE可以大致分为两个任务:
1 ) 方面意见共同提取(AOCE)
2 ) 面向目标的意见词提取(TOWE)
方面意见共同提取试图同时预测这些方面和意见术语。
对于表3中的运行示例,AOCE的目标输出因此是两个方面术语“pizza”和“service”,以及两个意见术语“delicious”和“terrible”。
虽然涉及两个情绪元素,但AOCE是单个ABSA任务,因为两个情感元素之间的依赖关系没有被考虑(例如,“delicious”是用来形容“pizze”)。
通常,它被公式化为具有两个标签集的TokenClass问题,以分别提取方面和意见术语,或者统一的标签集(例如,{B-A, I-A, B-O, I-O, N} 表示开始(B)或内部(I)的一个方面(A)或意见术语(O),或没有(N)),以同时提取两个情感元素。
考虑到体与观点之间的密切关系,AOCE的主要研究问题是如何对这种依赖关系进行建模。已经开发了各种模型来捕获方面意见依赖性,包括基于依赖树的模型,基于注意力的模型以及考虑句法结构以明确约束预测的模型。
面向目标的意见词提取旨在提取文本中给定特定方面术语的相应意见术语。
· 如表3所示,一个相关的方面(例如,“pizza”)被假定与句子一起给出,则TOWE模型旨在预测相应的意见项(例如,“delicious”)。
· TOWE也经常被公式化为一个TokenClass问题对输入句子,而主要的研究问题变成了如何在输入句子中建模特定方面的表示,以提取相应的意见。
Fan等人提出了一种神经模型,通过向内-向外的LSTM来合并方面信息,以生成方面融合的上下文。
· 后来的方法设法从几个方面提高提取的准确性:
- Wu等人利用一般情感分析数据集来转移潜在的意见知识以解决TOWE。
- Veyseh等人利用句法结构,如基于依赖树的方面距离来帮助识别意见术语。
- Mensah等人根据经验评估了基于各种文本编码器的位置嵌入的重要性,并发现基于BiLSTM的方法具有适用于TOWE任务的归纳偏差,并且使用GCN明确考虑结构信息只会带来较小的性能增益。
方面情绪分类(ASC),也称为基于方面/目标/水平的情绪分类,目的是预测句子中某个特定方面的情绪极性。
一般来说,方面可以实例化为方面术语或方面类别,从而产生两个ASC问题:基于方面术语的情绪分类和基于方面类别的情绪分类。
不管有一些细微的差异(例如,给定的方面术语来自于句子,那么它的位置信息可以被利用),这两种设置背后的主要研究问题是相同的:如何适当地利用方面(术语/类别)和句子上下文之间的联系来分类情绪。
(1)基于深度学习的ASC提出了各种基于神经网络的模型,并带来了巨大的性能改进:
- 为了对方面和句子上下文之间的交互进行建模,诸如TC-LSTM 之类的开创性神经模型采用相对简单的策略,例如串联来融合方面信息与句子上下文。
- 基于句子的不同部分对特定方面扮演不同角色的直觉,注意机制被广泛用于获得特定方面的表征。如Wang等人提出的基于注意力的方面嵌入LSTM(ATAE-LSTM)模型,它将方面嵌入附加到输入句子的每个词向量以计算注意力权重,并且可以相应地计算特定于方面的句子嵌入以分类情感。
- 还有设计了更复杂的注意力机制来学习更好的方面特定的表示。例如,IAN交互式地学习方面和句子中的注意力,并分别为它们生成表示。
- 除了LSTM网络之外,还探索了其他网络结构来支持注意力机制,包括基于CNN的网络,记忆网络和门控网络。
- 最近,预先训练的语言模型已经成为ASC任务的主流构建块。例如,Sun等人通过构造辅助句将ASC任务转化为句对分类问题,可以更好地利用BERT的句对建模能力。
(2)ASC研究的另一条路线明确地对句子的句法结构进行建模以进行预测,为该方面与其相关观点之间的结构关系往往表明了情绪取向。
- 早期基于机器学习的ASC系统已经将挖掘的语法树作为分类的特征。但由于依赖解析本身是一项具有挑战性的NLP任务,使用不准确解析器的ASC方法并没有显示出比其他方法明显的优势。
- 由于近年来基于神经网络的依赖分析的改进,更精确的分析树为基于依赖的ASC模型带来了显著的改进。例如,Sun等人和Zhang等人采用图神经网络(GNN)来建模依赖树,以利用句法信息和单词依赖关系。
- 遵循这个方向,已经提出了各种基于GNN的方法来显式地利用语法信息。除了句子内部的句法结构,其他结构信息也被考虑。Ruder等人对多个评论句子之间的关系进行了建模,假设它们彼此建立和阐述,因此它们的情感也是相关的。类似地,Chen等人考虑文档级情感偏好,以充分利用现有数据中的信息来提高ASC性能。
复合ABSA任务其目标涉及多个情感元素。图2的底部分支中示出了详细的任务分类和代表性方法。通常这些任务可以被视为上述单个ABSA任务的集成任务。
然而,复合任务的目标不仅是提取多个情感元素,而且还通过预测一对元素、三个甚至四个元素将它们耦合。图3显示了这些任务之间的关系。考虑到四个情感元素的相互依赖性,提供一个集成的解决方案是一个有前途的方向。
如3.3节所讨论的,对方面意见共提取(AOCE)任务的研究经常发现,提取每个元素可以相互加强。然而,AOCE任务的输出包含两个独立的集合:一个方面集合和一个意见集合。相应的成对关系被忽略。这激发了方面-意见对提取(AOPE)的任务,旨在成对地提取方面和意见术语,以便清楚地了解意见目标是什么以及相应的意见表达是什么。
为了解决AOPE,可以采用管道方法将其解耦为几个子任务,并将它们连接在一起以获得方面-意见对:
Gao等人采用MRC范式的第二种方法,他们首先使用MRC模型提取所有方面术语,然后对于每个提取的方面术语,为另一个MRC模型构建查询以识别相应观点术语的文本跨度。
还努力以统一的方式处理AOPE,以减轻管道方法的潜在错误传播。
给定一个句子,端到端ABSA的任务是同时提取方面项aspect term及其对应的情感极性,即,提取(a,p)对。
它可以自然地分解为两个子任务,即ATE和ASC,直观的流水线方法是顺序地执行它们。然而,检测方面边界和分类情感极性通常可以相互增强。
以句子“I like pizza”为例,上下文信息“like”指示正面情绪,并且还暗示后面的词“pizza”是意见目标。
受到这样的观察的启发,科学家提出了很多方法和方法以解决端到端的问题。这些端到端方法通常可分为两类,如表4所示。
如表4的最后一行所示,每个令牌的标记现在包含两部分信息:
例如,B-NEG指的是情绪消极的方面的开始。通过使用折叠标签方案,E2E-ABSA任务可以通过标准序列标记器利用TokenClass范例来处理。
无论采用哪种方法,一些想法往往是共享的,并在不同的模型中频繁出现。
例如,考虑方面边界和情感极性之间的关系已被证明是一个重要因素。由于意见术语为方面术语的出现和情感的取向提供指示性线索,因此意见术语提取通常被视为辅助任务。
例如,关系感知协作学习(RACL)框架明确地对三个任务的交互关系进行建模,并使用关系传播机制来协调这些任务。
Liang等人进一步设计了一种路由算法来改善这些任务之间的知识传递。文档级的情感信息也被用于为模型配备粗粒度的情感知识,以便更好地对情感极性进行分类。
关于处理E2E ABSA的这三种方法(即:管道pipeline、联合joint和统一unified方法),仍不清楚哪一种是最合适的。
早期的工作发现管道方法的性能更好,但Li等人表明,使用定制的神经模型和统一的标记方案可获得最佳性能。随后,Li等人进一步验证了在预训练BERT模型的顶部堆叠简单线性层,并采用统一标记方案,可以获得有希望的结果,而无需复杂的模型设计。最近,基于管道、统一或接头方法的研究工作都获得了良好的性能,即,约70%的F1分数。
方面类别情绪分析(ACSA)的目的是共同检测所讨论的方面类别及其相应的情绪极性。
如表3中的例子:一个ACSA模型被期望预测两个类别-情绪对(food,POS)和(seivice,NEG)。
虽然ACSA与E2E-ABSA任务相似(只有方面的格式不同),但无论句子中是隐式还是明确提到,都可以提供ACSA的结果,因此ACSA在行业中被广泛应用。
处理ACSA最直接的方法是管道方法:首先检测前面提到的方面类别(即ACD任务),然后预测那些被检测到的类别的情绪极性(即ASC任务)。
然而,正如第3.2节所讨论的那样,检测句子中出现的方面类别的子集是不平凡的。第一步的误差将严重限制整体对预测的性能。此外,这两个步骤之间的关系被忽略了,这对这两个任务都很重要。事实上,在多任务学习框架中执行这两个任务已经证明对每个单独的任务都是有益的。
本质上,ACD任务是一个多标签分类问题(将每个类别视为一个标签),而ASC任务是针对每个检测到的方面类别的多类分类问题(其中每个情绪极性都是一个类)。
如图4所示,现有的统一处理ACSA的方法大致可以分为四种类型:
方面情感三元组提取(ASTE)任务试图从给定的句子中提取(a,o,p)三元组,这告诉了意见目标是什么,它的情感取向如何,以及为什么表达这样的情感(通过意见术语)。
因此,与以前的针对单个任务的模型相比,可以预测意见三元组的模型显示了更完整的情感信息。ASTE任务近年来引起了广泛的关注。针对ASTE任务,已经提出了具有不同范式的各种框架,作者在图5中展示了每种范式的一些代表性工作。
(1)Peng等人首先介绍了ASTE任务,并提出了一种提取三元组的两级管道方法。
(2)为了更好地挖掘多个情感元素之间的关系,人们提出了许多统一方法。
(3)其他建模范式,例如MRC和Seq2Seq建模也已用于解决ASTE。
Seq2Seq建模提供了一种优雅的解决方案,可以一次性进行三重预测。
虽然方面类别和方面术语都可以作为分析方面级别情感时的意见目标,但情感通常取决于它们两者。
为了捕获这种双重依赖性,Wan等人建议检测给定数据集的所有(方面类别,方面术语,情感极性)三元组。他们根据(方面类别,情感极性)对将联合预测任务分为两个子任务,其思想类似于第4.3节中描述的ACSA任务的“笛卡尔积”。
因此,给定一个具有方面类别和情感的特定组合的句子,剩下的问题是:对于这样的组合是否存在任何方面术语,如果存在,方面术语是什么?前一个问题可以用二进制SeqClass任务来表示,而后者则变成了一个条件TokenClass问题。例如:
- 给定句子“The pizza is delicious”与(food,POS)对,第一个子任务将预测该组合存在,并且序列标记模型应该提取“pizza”作为对应的体项。
- 然后可以输出一个三元组(food、POS、pizza)作为预测。
- 然而,当接收到具有(service,POS)对的相同句子作为输入时,第一子任务应该预测该组合不存在。总体训练目标可以是这两个子任务的组合损失。
遵循这个方向,Wu等人提出了一个称为MEJD的模型,它通过使用句子和特定方面类别作为输入来处理任务,然后剩下的问题变成:
(1)预测给定类别的情感极性(即SeqClass问题);
(2)如果存在则提取相应的方面项(即TokenClass问题)。
由于一个特定的方面类别可能并不总是存在于相关的句子中,MEJD在SeqClass任务中添加了一个额外的维度“N/A”,分享了第4.3节中介绍的“添加一维”方法的类似想法。因此,当分类模型输出“N/A”时,表明输入中不存在与类别相关的三元组。此外,在MEJD中采用具有注意机制的GCN来捕获方面与上下文之间的依赖关系。
由于特定领域的预定义方面类别的数量通常很小,因此上述方法可以通过将句子与每个类别组合作为输入来分解原始ACSD任务。
相反,Zhang等人以Seq2Seq的方式解决这个问题,他们在原始句子中添加所需的情感元素,并将其视为生成模型的目标序列,以学习映射关系。
Zhang等人进一步设计了一个释义模型,该模型构建了一个包含所有情感元素的自然语言句子作为序列到序列学习的目标序列。
上面讨论的各种复合ABSA任务的主要动机是捕获更详细的方面级情感信息,或者以对提取的格式(例如,AOPE)或三联体提取(例如,ASTE)的数据。
尽管它们在不同的场景下可能有用,但是能够一次性预测四个情感元素的模型被认为提供了最完整的方面级情感结构。这导致了最近提出的方面情感四元组预测(ASQP)任务,其目的在于预测给定文本项的四元组形式中的所有四个情感元素。回到表3中的示例,期望两个情感四元:(food、pizza、POS、delicious)和(service、service、NEG、terrible)。
与其他ABSA任务相比,ASQP是最完整也是最具挑战性的任务。主要难点在于不同情感元素的准确耦合。考虑到IT的重要性和潜在的大的改进空间(例如,当前性能最好的模型在基准数据集上仅获得约40%的F1分数),作者预计未来会看到更多相关研究。
传统的神经ABSA模型通常将预训练的单词嵌入(如Word2Vec和GloVe)与精心设计的特定于任务的神经架构相结合。
尽管与早期的基于特征的模型相比,它们的有效性,从这些模型的改进逐渐达到了瓶颈:
(1)上下文无关的词嵌入不足以捕捉句子中复杂的情感依赖。
(2)现有的ABSA数据集的大小不支持非常复杂的架构的训练。
近年来,BERT和RoBERTa等预训练语言模型(PLMs)在广泛的NLP任务上带来了实质性的改进。当然,它们的引入也是为了进一步提高ABSA问题的性能。
最初的工作没有在特定任务的模型设计上花费太多精力,而是简单地引入PLM的上下文嵌入作为单词嵌入的替代。考虑到在预训练阶段学习到的丰富知识,简单地利用这种上下文化的嵌入已经带来了很大的性能增益。
然而,简单地采用PLM作为上下文感知嵌入层可能是不够的。从ABSA任务的角度来看,复杂的任务往往不仅需要识别序列或标记级标签,而且还需要识别它们之间的依赖关系,因此需要更多的设计来充分利用PLM的上下文嵌入。
(1)从PLM的角度来看,在预培训阶段学到的丰富知识可能无法充分诱导和利用相关的ABSA任务。为此,已经做出了许多努力,以更好地适应不同的下游ABSA任务的PLM。
(2)除了作为ABSA模型的骨干之外,PLM还可以从其他方面受益于处理ABSA任务。例如,在PLM的预训练阶段使用的语言建模任务通常会带来执行生成数据增强的能力。
(3)PLM的另一个有趣但被忽视的作用是为各种ABSA模型提供更好的依赖关系树,例如,方法见第3.4节。显式地利用语义关系对于许多ABSA任务来说是有益的,但是它们的性能在很大程度上取决于所采用的依赖树的准确性。
到目前为止,自然语言处理界的共同观点是,语言学习机能够准确地反映输入词的语义。
然而,通过自我注意机制获得的语境化嵌入(它捕获了句子中的完整单词依赖关系)对于ABSA任务来说可能是多余的。
事实上,明确地指导了具有有意义结构的PLM表示的进一步转换,而那些使用“[CLS]”表示进行预测的工作的优越性间接地暗示了这种冗余的存在。
如何利用PLM整合有意义的稀疏结构,或提炼内在的全连接自注意,从而更有效地获得ABSA相关表征,值得更多的关注和研究。
另一方面,基于PLM的ABSA模型的鲁棒性仍有提高的空间。
特别是,如Xing等人所观察到的,即使基于PLM的模型在对抗性示例上显著优于先前的神经模型,但在最简单的ASC任务上,其性能仍下降了25%以上。
作者相信,利用PLM来真正理解方面级情感,对反向意见和情感否定具有鲁棒性,而不是学习方面和情感标签之间的虚假相关性是构建基于PLM的ABSA模型的未来挑战。但要实现这种智能化还有许多路要走。
在单个域中的有监督ABSA模型已经得到了很好的发展。然而,在涉及多个甚至未知领域的真实场景中,这些模型很可能无法获得令人满意的预测。
其主要原因是不同领域的意见目标aspect所指的方面通常有很大的差异,而模型可能不具有未知领域中常用术语的先验知识。
一个简单的解决方案是为这些域创建带标签的数据,并重新训练其他域内模型。
考虑到ABSA任务需要细粒度的标注,通常收集足够量的标注数据是昂贵的,甚至是不可能的。为了能够以较低的成本进行跨域ABSA预测,采用域适配技术来提供用于将ABSA系统很好地推广到其它域的替代解决方案。粗略地说,大部分这些工作可以分为两种:基于特征的传输和基于数据的传输。
基于特征的迁移的核心思想是为ABSA任务学习与领域无关的表示。
基于数据的传输旨在调整训练数据的分布,以更好地将ABSA模型推广到目标域。
这些进展表明,基于特征的传输和基于数据的传输的合并是跨领域ABSA的更好的方式,语言模型预训练可以作为一个即插即用的组件引入,以进一步提高领域适应性能。
大多数现有的ABSA工作是在资源丰富的语言(主要是英语)上进行的,而在实践中,意见往往是用不同的语言表达的。
然而,注释每种语言的标记数据可能是耗时的,这激发了跨语言ABSA(XABSA)的任务。由于跨语言迁移的困难,大多数XABSA研究都是在简单的ABSA任务上进行的,例如跨语言方面术语提取(XATE),跨语言方面情感分类(XASC)和跨语言端到端ABSA 。
要实现跨语言迁移,关键问题是获取目的语中的语言专有知识。
早期的方法通常依赖于翻译系统来获得这些知识。首先,使用现成的翻译系统将句子从源语言翻译成目标语言。然后,标签类似地从源投影到目标,直接或使用单词对齐工具,如FastAlign ,因为一些ABSA任务(例如,XATE)需要标记级注释。因此,ABSA模型可以用所获得的(伪)标记的目标语言数据来训练。
由于这种方法的性能严重依赖于翻译和标签投影的质量,因此已经提出了许多技术来提高数据质量,包括协同训练策略,实例选择或约束SMT。
在大型并行双语语料库上预训练的跨语言单词嵌入也被用于XABSA。通过共享一个公共向量空间,该模型可以以语言无关的方式使用。
最近,在开发单语言PLM的成功启发下,利用多语言PLM(mPLM)(如多语言BERT和XLM-RoBERTa)来处理跨语言NLP任务已成为一种常见做法。
典型地,PLM首先在大量的多语言语料库上进行预训练,然后在源语言数据上进行微调以学习特定于任务的知识。最后,它可以直接用于对目标语言测试数据进行推理(称为零击迁移)。
由于在预训练阶段获得的语言知识,zero-shot迁移已被证明是许多跨语言NLP任务的有效方法。然而,对于XABSA问题,在预训练步骤中学习的语言知识可能是不够的。
作为补偿,利用翻译的(伪)标记的目标语言数据可以为模型配备更丰富的目标语言知识。
它们表明,即使在这些数据上微调mPLM,也可以为XABSA任务建立强有力的基线。
与单语ABSA问题相比,XABSA问题的研究相对较少。虽然mPLM现在被广泛地用于各种跨语言的NLP任务,但是探索它们在XABSA中的使用可能是棘手的,因为语言特定的知识在任何ABSA任务中都起着重要的作用。因此,需要更好的mPLM自适应策略,为模型注入更丰富的目标语言知识。另一方面,现有的研究主要集中在相对简单的ABSA任务上,探索难度较大的复合ABSA任务的跨语言迁移具有一定的挑战性和实用性。
在过去的十年里,我们看到ABSA问题取得了巨大进展,无论是新任务还是新方法。尽管取得了进展,但构建更智能、更强大的ABSA系统仍面临挑战。在本节中,作者讨论了一些挑战,以及作者希望可以帮助推进ABSA研究的潜在方向。
如第2.4节所述,大多数现有的ABSA数据集都来自SemEval共享挑战,并针对特定任务进行了额外的数据处理和注释。
然而,相对较小的数据大小(例如,数百句话)使得很难清楚地比较不同的模型,特别是对于具有数百万个参数的基于PLM的模型。
目前,通常的做法是用不同的随机种子(通常是5个或10个)训练模型,并用不同运行的平均得分报告模型性能,但最好引入更大的数据集,以进行更公平和可靠的比较。
此外,尽管现有的数据集为比较不同的方法提供了有价值的测试床,但仍然需要提出更具挑战性的数据集来满足现实世界的场景。例如,包含来自多个领域或多种语言的评论的数据集可以帮助评估多领域和多语言ABSA系统。
此外,由于用户意见可以以任何形式表达,我们还希望从不同的意见共享平台收集数据集,例如问答平台或客户服务对话框。
大多数现有的ABSA作品都专注于分析固执己见的文本,如客户评论或推文。
然而,用户经常与其他形式(如图像)分享他们的意见。由于不同模态的内容通常密切相关,因此利用这种多模态信息可以帮助更好地分析用户对不同方面的情感。
最近关于多模态ABSA的研究主要集中在简单的ABSA任务,如多模态ATE和多模态ASC 。为了对齐来自不同模态的信息,通常首先将文本和图像编码为特征表示,然后设计一些交互网络来融合信息以进行最终预测。
最近,受E2E-ABSA任务在单一模式(即,仅基于文本)Ju等人研究了多模态E2E-ABSA任务,旨在捕捉多模态场景中两个子任务之间的联系。他们提出了一种多模态联合学习方法,辅助跨模态关系检测以获得所有方面术语和情感极性对。
尽管有这些初步的尝试,仍然存在一些有希望的方向:
(1)从任务的角度来看,应该考虑处理更复杂的多模态ABSA任务;
(2)从方法的角度来看,应该提出更先进的多模态技术来融合多模态意见信息,例如,构建基于多模态PLM的模型。
相信多模态ABSA将得到更多的关注,因为它在现实世界中的应用越来越受欢迎。
在各种ABSA任务的介绍过程中,可以注意到一些想法和模型设计不时出现。实际上,一个ABSA任务的解决方案可以很容易地被用来处理另一个类似的任务,因为这些任务通常是密切相关的。
这自然会提出一个问题:我们能否构建一个统一的模型,同时处理多个(如果不是全部)ABSA任务?如果是的话,就没有必要为每项任务设计特定的模型。它在实践中也是有用的,因为我们可能不希望每次有一些带有不同类型的意见注释的新数据时都改变模型架构并重新训练它。在2.3节中,我们展示了不同的任务可以通过相同的模型来处理,如果它们可以被表述为相同的建模范式的话。
终身学习,也被称为持续学习,旨在积累从以前的任务中学到的知识,并在一系列任务中调整它以帮助未来的学习。
Chen等人首先从终身学习的角度研究情感分析,并提出终身情感分类问题,该问题需要一个模型来解决一系列情感分类任务。Wang等人将终身学习的思想引入了记忆网络的ASC任务。
最近的研究开始研究顺序学习过程中的灾难性遗忘问题,而不是简单地将其作为知识积累的跨领域情感分析的扩展来研究。
然而,现有的研究主要集中在ASC任务的域增量学习,其中所有任务共享相同的固定标签类(例如,正、负和中性),并且不需要任务信息。
为了开发更先进的终身ABSA系统,不可避免地需要研究类和任务的增量学习。例如,方面类别的类在不同的应用中是不同的,这就要求方法能够适应变化的类别。
此外,跨任务转移已被证明可以有效地将从低级ABSA任务学到的知识转移到高级ABSA任务。因此,在不同类型的ABSA任务中探索终身学习也是值得的。
本研究旨在全面回顾基于方面的情感分析问题,包括其各种任务、方法,当前挑战和潜在方向。作者首先建立了ABSA研究的背景,ABSA的四个情感元素,定义,常见的建模范式,和现有的资源。然后,详细描述了每一个ABSA任务及其相应的解决方案,重点是复合ABSA任务的最新进展。同时,从涉及的情感元素对现有研究进行了分类,并总结了每个任务的不同建模范式的代表方法,这为当前的进展提供了一个清晰的画面。作者进一步讨论了ABSA问题的预训练语言模型的利用,这给各种各样的ABSA任务带来了很大的改进。研究了它们的优点,以及它们的局限性。此外,还对跨领域和跨语言的ABSA系统的研究进展进行了综述,以期为更实用的ABSA系统的开发提供参考。最后,讨论了该领域目前面临的一些挑战和未来的发展方向。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。