赞
踩
论文:MEMD-ABSA: A Multi-Element Multi-Domain Dataset for Aspect-Based Sentiment Analysis阅读笔记【谷歌学术可以免费下载阅读学习】
3.1Multi-Element Multi-Domain ABSA Datasets
4)Results on ACS Triple Extraction:
5)Results on ACOS Quadruple Extraction:
标题:MEMD-ABSA: A Multi-Element Multi-Domain Dataset for Aspect-Based Sentiment Analysis
作者:Hongjie Cai, Nan Song, Zengzhi Wang, Qiming Xie, Qiankun Zhao, Ke Li, Siwei Wu , Shijie Liu, Jianfei Yu, Rui Xia∗
作者单位:School of Computer Science and Engineering, Nanjing University of Science and Technology, China
数据集地址:https://github.com/NUSTM/MEMD-ABSA
ABSA综述论文阅读笔记地址:https://www.wolai.com/5L69B34hDxdrN18whxt9wQ【不了解这个领域的同学可以先看看这个博主关于ABSA综述的阅读笔记】
笔记流程图
1)动机:
目前研究所使用的数据集仅限于特定任务的个别元素,通常侧重于领域内的设置
目前研究只考虑了显式方面和观点的抽取,忽略了隐式的方面和观点。
已有的数据集规模小,不适用于具有百万参数的深度学习模型(例如,以Chatgpt为代表的大模型),存在过拟合风险。
2)ABSA研究趋势:单元素提取——>多元素提取
1)提出了一个大规模的多元素多领域数据集( Multi-Element Multi-Domain Dataset,MEMD ),该数据集涵盖了五个领域(图书、服装、酒店、餐厅、笔记本电脑)的四个元素,包括近20,000个评论句子和30,000个四元组,支持多元素提取任务,
标注了ABSA研究的显式和隐式方面和观点。
2)在开放域设置下对多个ABSA子任务的生成性基线和非生成性基线进行了评估,结果表明开放域ABSA以及挖掘隐含的方面和观点仍然是需要解决的持续挑战。
本文提出的数据集形式示例:
1)ABSA输入输出示例:
选择了五个不同社交媒体领域的元素数据,并从数据集中随机抽取数据且对数据的四元组进行标注。
使用“Inception platform (Klie et al., 2018)”进行数据标注
以laptop为例展示标注的界面和例子
1)标注规则:
Aspect term(Aspect):完整的客观事物(详见附录A)
Aspect category(Category):所属类别(由多个专家讨论决定 详见附录B)
Opinion term(Opinion):观点(观点词、含情感短语、难决定的参考MPQA Subjectivity Lexicon)
Sentiment polarity(Sentiment):positive、negative、neutral共三类
Discontinuous Aspect:指的是Aspect的文本跨度是不连续的。例如"酱有芝麻,与土豆边完美搭配","酱有土豆边"是不连续的
Discontinuous Opinion:指Opinion的文本跨度是不连续的,通常以极性否定的形式出现,例如"我不认为衬衫是好的"文本中Opinion是不好。非连续意见与隐式意见的区别在于,隐式意见没有一个情感表达的中心词。
2)标注流程
对于每个方面,标注者首先需要将该方面标记为 "方面",并确定 "方面 "的 "类别 "实体标签。然后,为该方面找到相应的观点并将它们配对。由于 "类别 "的属性标签一般由 "方面 "和 "观点 "共同决定,特别是当 "方面 "或 "观点 "都是隐含的时候,"方面 "和 "观点 "之间的关系需要设置为 "类别 "的属性标签,从而形成完整的 ACOS 四重注释。各领域四元注释严格匹配的平均注释 F1 得分为 68.52%,表明不同领域的四元注释具有较高的一致性。对于两个注释者无法达成共识的标注示例,可咨询第三位专家进行讨论并确定最终标注。
对比结果如下:
说明:本文的标注数据不仅可以用于四元组抽取任务,还可以用于ABSA的其他子任务
下图显示了五个领域的显性和隐性四元组的数量。EA、EO、IA和IO分别表示外显方面、外显观点、内隐方面和内隐观点。
餐厅和服装领域中实体和属性的比例如下图:
分析情感极性在各领域的分布情况
在6个典型的ABSA子任务上评估了各种基线系统
“aspect extraction, aspect-based sentiment classification, aspect-opinion pair extraction, as well as aspect-opinion-sentiment triple extraction, aspect-category-sentiment triple extraction, aspectcategory-opinion-sentiment quadruple extraction.”
实验说明:选择的子任务包括分类任务和抽取任务。我们为每个子任务选择不同的基线系统,并比较它们在开放域设置以及在显式和隐式测试集上的表现。
不同子任务介绍:
不同的任务使用不用的基线模型进行对比
aspect extraction(AE):从文本中提取显式方面,基于生成式和非生成式两种架构来选择和修改基准模型。
Aspect-Based Sentiment Classification(ABSC):旨在确定给定方面的情感极性。
Aspect-Sentiment Pair Extraction(ASPE):旨在从评论文本中提取方面及其对应的情感极性。
Aspect-Opinion-Sentiment Triple Extraction(AOS):旨在从评论文本中抽取方面-观点-情感三元组,选择了非生成式和生成式的基线。
Aspect-Category-Sentiment Triple Extraction(ACS):从评论文本中抽取方面-类别-情感三元组。
Aspect-Category-Opinion-Sentiment Quadruple Extraction(ACOS):旨在从评论文本中抽取ACOS四元组。
1)为了使基线系统能够处理隐式示例,对 BART-index、T5-index 和 T5-Paraphrase 等基线系统进行了相应的调整,因为它们只能用于处理显式示例。
2)数据集分割:将原始数据集按照7:1:2的比例划分为训练集、验证集和测试集。
3)评估指标:Micro - F1、ACC
抽取任务:Micro - F1,只有当三元组中的所有元素与黄金三元组中的元素完全相同时,该三元组才被认为是正确的。
分类任务:ACC、Macro - F1
生成式基线 (T5-index 和 T5-Paraphrase )在几乎所有领域的结果都高于非生成式基线,在 AE 任务中优势更为明显。
在ASPE 任务中,可以看到各领域的结果普遍不低于甚至高于 AE 任务的结果,说明非生成式架构基线中的 ABSC 任务和 AE 任务可以相互促进,在实现更好的联合提取性能的同时,也提高了AE 的结果。【感觉有点乱】
RoBERTaABSA 和 T5-index 的性能均优于其他基线。
与 T5 指数相比,RoBERTaABSA 在餐厅的 Macro-F1 值较低,约为 10%,这可能是由于它在预测某个类别时表现不佳,导致在不同种子下结果波动较大,进而影响了宏观平均结果。
3)Results on AOS Triple Extraction:
生成方法 T5-index 的结果几乎是最好的,在每个领域都比第二好的基线高出约 1%到 2%。【这里的分析有点奇怪,该模型是laptop上表现不好,但是分析说的是books】
T5-Paraphrase 在五个域中取得了相对最好的结果,尤其是在酒店域中。
GAS(提取)与 GAS(注释)相比也有一些优势,这反映了输出模板对 acs 提取任务的影响。
T5-index 在 Books、Hotel 和 Restaurant 领域取得了最好的结果,在酒店领域,提取 acos 四元组的结果可以超过 70%,但在笔记本电脑领域,只能达到 40% 左右。这可能是由于笔记本电脑领域的类别较多,而酒店领域的 acos 四元组与其他领域相比可能更容易识别。【学习一下实验结果的分析】
除了域内环境,还分析了基线模型在跨域和域外环境中的结果。选择性能良好的 T5-Paraphrase 作为基线模型,并在 aos 任务中进行了实验。
在跨域设置下,结果低于单域设置下的结果,当源域和目标域不一致时,差异从 10% 到 40% 不等。例如:当餐厅域作为源域时,与使用其他域作为源域相比,餐厅域的泛化能力最好。【逐行对比】
电脑域作为原域时差异高达 40%,这表明模型的可移植性较差,笔记本电脑域与其他域之间存在显著差异
将四个域合并为源域,并将其余域作为目标域。具体来说,我们将其他四个域的训练集和验证集合并为新的训练集和验证集,并在剩余域的测试集上测试最终结果。可以看出,除服装域外,其他域在域外设置下的实验结果均优于跨域设置下的实验结果,幅度约为 2% 至 5%,这反映了多源数据在提高跨域模型训练性能方面的重要性。【比较对角线上的数据和最后一列的数据】
比较了不同基线在包含隐含观点的 aos 任务和包含隐含方面和观点的 acos 任务中的结果。
T5-index 和 T5paraphrase 在每个领域都取得了几乎最佳的结果,其中 T5-index 在 aos 任务中的平均表现优于 T5-paraphrase,而在 acos 任务中的平均表现与 T5-paraphrase 相似。
与表 5 和表 7 的结果相比,可以看出在所有领域中,使用隐式示例进行训练和测试的结果都低于仅使用显式示例进行训练和测试的结果。这表明,与显性实例相比,提取包含隐性实例的 aos 三元组和 acos 四元组更加困难。
在大型语言模型出现的背景下,ABSA仍然是一个具有挑战性的问题。我们提出了一个人工标注的ABSA数据集,该数据集包含四元组、显式和隐式方面以及观点,覆盖了5个领域。标注的规模也远远大于之前的数据集。我们总结并制定了数据集的标注指南,并对标注后的数据集进行了全面的统计和分析。同时,在开放域设置下,我们对域内、跨域和域外设置下的几个典型ABSA子任务进行了生成性基线和非生成性基线的评估。
优:提出了一个内容比较全的数据集、有非常充分的实验和详细的实验分析
不足:暂无
创新点:提出了一个人工标注的ABSA数据集,该数据集标注的规模和内容远远大于之前的数据集,并对标注后的数据集进行了全面的统计和分析。
ABSA任务主要侧重于不同元素的联合提取。、
组成元素发展如下:
四个核心元素:方面项(Aspect Term)、方面类别(Aspect Category)、观点项(Opinoin Term)、情感极性(Sentiment Polarity):
Two-Element Extraction Tasks:一般包括方面-情感对提取(ASPE)和方面-观点对提取(AOPE)。这两种任务的目的都是联合提取方面及其相关观点,但区别在于观点的形式。ASPE 的目的是识别情感极性,而 AOPE 的目的是提取观点表达。
Three-Element Extraction Tasks:包括方面-观点-情感(AOS)三元提取和方面-类别-情感(ACS)三元提取。现有研究大多集中于明确的 AOS 三重抽取任务。
Four-Element Extraction Task:提取四元素,相关研究比较少也比较新。
SemEval引入了ABSA(基于方面的情感分析)的基准数据集(Pontiki et al., 2014, 2015, 2016),其中主要包括单一元素(方面、类别和情感),以及某些数据集上的方面-情感对、方面-类别-情感三元组。
(Wang 等人,2016,2017)为 SemEval 2014 的笔记本电脑和餐厅领域以及 2015 的餐厅领域注释了观点,
(Chen 等人,2020)根据其注释的观点注释了方面-观点对。(Fan 等人,2019)为 SemEval 2014 的笔记本电脑和餐厅领域以及 SemEval 2015 和 2016 的餐厅领域注释了方面-观点对。
(Peng 等人,2020;Xu 等人,2020)在(Fan 等人,2019)和 SemEval 数据集的基础上提出了 AOS 数据集
(Xu 等人,2023;Chia 等人,2023)进一步补充了餐厅和笔记本电脑以外领域的 AOS 数据集。
(Cai等人,2021)提出了餐厅和笔记本电脑领域的ACOS四元数据集,将隐含方面和观点纳入四元提取任务。
与上述数据集相比,我们提出的数据集涵盖了五个不同的领域,可以更好地评估模型在开放域设置下的各种典型子任务中的性能。
目前研究所使用的数据集仅限于特定任务的个别元素,通常侧重于领域内的设置
目前研究只考虑了显式方面和观点的抽取,忽略了隐式的方面和观点。
已有的数据集规模小,不适用于具有百万参数的深度学习模型(例如,以Chatgpt为代表的大模型),存在过拟合风险。
2)ABSA研究趋势:单元素提取——>多元素提取
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。