赞
踩
点击下面卡片,关注我呀,每天给你送来AI技术干货!
来自:复旦DISC
引言
话题建模 (topic modeling) 在 NLP 中有广泛应用,话题包含了文本的高阶语义信息,能代表长段落的核心观点,对于零散文本也能进行有效的组织整合。
本次 Fudan DISC 实验室将分享 ACL 2021 中关于话题建模的 3 篇论文,介绍在事实检测、对话情感识别、摘要生成任务中话题感知语义建模 (topic-aware modeling) 的相关应用。
文章概览
事实检测中话题感知的论据推理和立场感知的信息聚合
Topic-Aware Evidence Reasoning and Stance-Aware Aggregation for Fact Verification
论文地址: https://aclanthology.org/2021.acl-long.128.pdf
该篇文章针对事实检测的任务,使用 LDA 主题模型获取文本中的话题分布,并对论断与论据之间以及论据与论据之间的话题关联性建模,对有用的论据进行筛选。此外,还使用了胶囊网络对论据的立场进行聚合用于事实检测的任务。
对话情感识别中话题及知识感知的 Transformer
Topic-Driven and Knowledge-Aware Transformer for Dialogue Emotion Detection
论文地址: https://aclanthology.org/2021.acl-long.125.pdf
该篇文章在对话情感识别的任务中,采用含有隐变量的深度学习模型获取对话文本中话题相关的隐变量表示,并结合对话的上下文语境,以编码器-解码器的框架输出每句对话文本的情感标签。
TWAG: 话题导向的维基百科摘要生成
TWAG: A Topic-Guided Wikipedia Abstract Generator
论文地址: https://aclanthology.org/2021.acl-long.356.pdf
该篇文章将维基百科中目录表概括的方面视作为百科词条中的话题,根据话题预测结果将多篇长文档中的段落进行分组,以期针对不同方面进行生成式的摘要提取。
论文细节
1
事实检测 (fact checking) 任务是给定一句论断 (claim),通过外部检索信息判断论断是否成立。其中包含了 3 个过程:(1) 文档抽取 (document retrieval),即从大量的文档集合中抽取出有效文档,可以通过标题涉及实体的关联性进行筛选;(2) 论据筛选 (evidence selection),即从文档中筛选出关联性较高的段落作为论据,通常可以通过相似度排序的方式实现;(3) 真实性判别 (claim verification),通常涉及到自然语言推理 (natural language inference) 和文本蕴含关系识别 (textual entailment recognition) 的方法。
然而,目前对于文本之间蕴含关系 (即文本之间一致或矛盾的关系) 的建模多是通过预训练语言模型或基于图的方式实现的,而没有更细致的捕捉论断与论据之间、论据与论据之间在话题上的关联性。如若能对话题一致性 (topical coherence) 进行建模,则将进一步缩小有效论据的范围,并有助于对论据的支持、反对立场进行建模,从而在信息聚合进行判别时提升信息的利用程度。
下图具体展示了话题建模在事实检测任务中的作用。图中需要判别真实性的论断为“一学生因在校停车时被发现猎枪在车上,因而受到指控”。下面罗列的四条论据有两条含有相应主题,解释“携带猎枪的原因”和“指控的严厉程度”,而后两条则因为话题过于宽泛而不具有解释作用。因此,捕捉话题的一致性将提高信息的利用率和整合精度。
事实检测任务即给定依据论断 (claim) ,以及检索出的论据 (evidence) 集合 ,输出对论断真实性的判别结果 。
文章提出的事实检测方法共包含 3 个模块:表示层 (Representation Layer) 、关联层 (Coherence Layer) 及聚合层 (Aggregation Layer),如下图所示。
表示层的功能是对句子进行编码,对句子中的话题分布进行建模。
首先将每对论断-论据对拼接形成输入 。
使用 transformer 对输入进行编码获得局部表示,再增加一层 eXtra 注意力机制,以 标记的表示作为上下文全局表示 :
将局部和全局表示拼接起来,进而获取到句子的语义表示
采用 LAD 主题模型对话题分布抽取,既抽取句子级别的话题表示 ,也抽取整体涉及整段文本的话题分布
.
关联层的功能是将论断与论据之间、论据与论据之间语义话题的关联性建模出来,主要采用多头注意力的计算方式 (multi-head attention)。
计算局部主题和整体主题之间关联性的方式如下,可得到话题的相关性表示 :
计算语义与话题之间的关联性表示 计算公式与上类似。
聚合层则采用胶囊网络 (capsule network) 的动态路由机制,隐式的预测每条论据的立场,并得到最终对论断的类别判断。
将考虑了关联性的话题表示和语义表示进行拼接得到每句话的表示
,通过将囊网络计算每句话的高阶立场类别信息 ,其计算方式如下:
文章在 FEVER (Thorne et al., 2018) 和 UKP Snopes (Hanselowski et al., 2019) 数据集上进行了实验,并和基于 BERT 和构造论据图 (evidence graph) 的基线模型进行了对比,结果如下面两张表所示,在绝大多数指标上都有显著提升。
另外,文章还探究了话题数目对模型性能的影响;进行了消融实验,探究了话题表示、胶囊网络信息聚合对实验性能的影响;对训练/测试数据集进行了重新的划分,探究了模型在不同情境下的鲁棒性 ;也进行了案例分析,探究论断和论据在捕捉到的主题上的关联性;最后还进行了误差分析,发现高频词和文本长度对模型的影响较大。
2
对话情感识别 (dialogue emotion detection) 旨在对于对话中的每句话的情感进行识别,其难点在于需要结合上下文进行判断,如 “I just passed the exam” 在不同上下文中可以传达或积极或消极的情感。
然而,对话者的情绪往往跟随讨论的话题进行变化,下图展示了当话题变化时对话者情绪的波动。尤其在图 (b) 中,虽然两轮对话中 B 都说出了 “He was doing so well”,但在不同的语境下,传递的情感有较大差异。
该篇文章的出发点便是捕捉话语在不同话题主导的上下文中的含义,同时融入外部知识对对话者的意图、行为进行建模,将文本分类转化为 encoder-decoder 形式的生成模型,进一步提升对话情感识别的准确性。
对话通常由一系列的话语 (utterances) 组成 ,每句话对应着相应的情感标签 (emotion labels) ,在生成式的框架中,对话情感识别的目标是使得话语标签的联合概率分布最大化,其中联合概率分布表示为如下形式:
该篇文章所提出的方法由 2 个模块构成:话题表示学习 (topic representation learning)、知识融入的transformer (knowledge-aware transformer),整体结构如下图所示。
话题表示学习是通过将隐变量嵌入到已有的语言模型中完成训练的,即在对遮罩 (mask) 的预测过程中,增加一层隐形量 ,代表蕴含了高阶语义的话题信息。
在此假设下,隐变量的后验分布可表示为:
解码器产生的输出为:
将对 ELBO 进行的优化加入语言模型的训练目标:
将外部知识融入对话情感识别已经成为了基本过程之一,其对预测性能的提升非常关键。该篇文章采用 ATOMIC (Sap et al., 2019) 外部知识库,抽取出文本中所涉及的事件主体和相应类型形成三元组的形式 。经实验发现,知识库中的 3 种类型对实验助益较大,分别是 (主体的意图)、 (主体的行为) 、 (客体的行为)。
通过每句话与知识库中每个实体词汇的相似度比对,可以筛选出前 个相关事件实体及其相应的类型特征值。通过已有的 SBERT 模型,可获取每个事件实体的表示
。通过已有的 COMET 模型,可获取类似的表示。
该篇文章使用 pointer network (Vinyals et al., 2015) 进行知识筛选,获取最终的知识表示 :
接着,采取注意力机制,对知识信息与话题感知的语义表示进行融合:
最后,用 标记的表示作为每句对话的表示,用于预测每句话的情绪类别,并使用生成模型式的训练目标:
该篇文章的实验通过 4 个数据集来完成:
DailyDialog (Li et al., 2017) 由日常对话组成
MELD (Poria et al., 2019) 由老友记的剧本对话组成
IEMOCAP (Busso et al., 2008) 由即兴演出的台词记录组成
EmoryNLP (Zahiri and Choi, 2018) 由老友记的对话组成
相应统计信息如下表所示。
文章与基于序列化的、基于图结构的、融入外部知识的基线模型进行了对比,在部分数据集上取得了较大的进步。消融实验也进一步证明了对话题进行建模以及融入外部知识的有效性。
此外,该篇文章还探究了话题与情绪的关系,外部知识中关系类型的影响、注意力机制的可视化效果。
在探究话题与情绪关系中,将学到的话题分布的隐向量降为 2 维,可视化在平面图表中,并用颜色标注相应的情绪类别,如下图所示。值得注意的是,同一情绪类别的话语往往在主题分布上呈簇状,代表了主题对情绪判别的引导作用。
3
维基百科 (Wikipedia) 的摘要生成是从该实体相关的维基百科词条中,生成较短的概括性的摘要,可以视作为多文档的摘要生成问题 (multi-document summarization)。与单文档的摘要生成任务不同,多文档的摘要生成面临更多的有效信息筛选和冗余信息删除的问题。
目前,大多数的摘要生成方法都将文档视作为普通文本 (plain text),而忽略了文档中的实体信息和文档结构信息。而维基百科的词条介绍本身附带人工归纳的目录信息 (content table),其中涉及的方面 (aspect) 可以作为相应段落话题 (topic) 的归纳,下图展示了维基百科中北极狐 (arctic fox) 词条对应的摘要和目录。
该篇文章便是将目录页所归纳的方面作为摘要生成的关键指导信息,进一步优化生成式摘要的效果。
多文档的摘要生成任务是给定文档集合 ,输出包含 句话的摘要 ,使得其存在的概率最大,即
。对于有话题引导的摘要生成,即引入一系列可能的隐含话题
,既找到文档最有可能的话题分布,也找到在给定文档给定话题时最可能生成的摘要,即
。
该篇文章提出的话题感知的摘要生成模型由 2 步组成:(1) 话题发现;(2) 话题指导的摘要生成。整体结构如下图所示。
文章采用 ALBERT (Lan et al., 2019) 对每一短话 进行编码,再用全连接层进行分类:
通过前一步的话题分类结合,可以将相同话题的文档形成一个 TTG (topic-specific text group) 组别 :
使用双向 GRU 模型对同一组别内的文本进行编码,以获取包含了上下文语义信息的文本表示:
接着,模型从段落级别的表示转换为句子级别的表示,同样的,采用 GRU 的模型获取句子表示输出和句子级别的主题分布:
由于一句话可能包含多个方面的信息,因此文章设计了 2 种话题分布的校正方式。
一种是硬分布,即认为该句子属于一种话题:
另一种是软分布,即认为可能在多个话题都有分布:
其中
代表了各类话题的表示。文章设计了两种校正方式的实验,根据实验效果最终采用的还是软分布的表示。
接着,将语义表示与话题相关的表示进行加和:
最后,文章采用 Pointer-Generator 网络 (See et al., 2017) 完成摘要生成。
该篇文章在 WikiCatSum (Perez-Beltrachini et al., 2019) 数据集上进行了实验,其包含了商业、电影、动物 3 个领域的词条。作者通过词条目录构造了相应的主题标签。与摘要生成的基础模型相比,文章提出的模型都有较大提升。
此外,文章还进行了消融实验探究学习率、主题分布校正方式、主题类别数目对实验性能的影响;通过案例分析展示了和其他摘要生成模型的区别;通过人工评测展示了模型生成的准确性和语法连贯性。
总结
此次 Fudan DISC 解读的三篇论文围绕话题感知的语义建模展开。目前对话题进行表示多采用统计学方法 (如 LDA 主题模型),或基于隐变量的深度学习方法 (如 VAE )。更加细粒度的对话题进行表示,对于事实检测、对话情绪识别、多文摘要生成等应用性任务都有一定的提升效果。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
点击上面卡片,关注我呀,每天推送AI技术干货~
整理不易,还望给个在看!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。