赞
踩
这两年对比学习很火,尤其是在CV领域,所以有人尝试将对比学习的思想引入到关键词抽取任务中,虽然最后的结果并没有大的提升,但是这篇论文还是值得看一下的。这篇文章中了2022年ACL Findings。
MDERank: A Masked Document Embedding Rank Approach for Unsupervised Keyphrase Extraction
Linhan Zhang, Qian Chen, Wen Wang, Chong Deng, Shiliang Zhang, Bing Li, Wei Wang, Xin Cao
2022
ACL2022
作者认为在这种情况下会有一个偏好,即以前的模型存在很大的偏差,因此它们更喜欢长且高频的候选者。此外,由于缺乏上下文,从 BERT 获得的候选者的嵌入是不可靠的。
考虑到注释数据的不足和 BERT 建模的能力,我们提出了一种新的基于嵌入的基于文档嵌入的关键短语提取方法,表示为掩码文档嵌入排序 (MDERank)。
模型如上图所示。整体的思想是,将一个候选词遮盖住,然后将遮盖后的文档送进bert里面学到一个嵌入向量,然后再将原文档送进bert学到一个嵌入向量,两个向量之间进行相似度计算,如果差距变化很大,证明被遮盖的候选词是关键词,如果相似度变化很小,证明被遮盖的候选词不是关键词
因为一个候选词在很多情况下都在原文中出现多次,所以在mask时会有多种考虑和选择
i
在文档中出现的位置全部用MASK
标记替代i
在文档中出现第一个位置用MASK
标记替代,其他位置不变i
在文档中出现的最大余弦相似度的位置用MASK
标记替代,其他位置不变Internet
和Internet Service
Internet
进行mask操作时只会遮盖住Internet
和Internet Service
位置减法生成的位置Internet
的掩码数会减少,从而产生排名较低的Internet
。因此,对于嵌套的候选者,Mask Subset 可以很容易地将它们分开并选择更长的候选者。相似度计算如上图所示,简单介绍一下
d m d_m dm表示的是生成的掩码文档
d o d_o do表示的是原文档
e m e_m em表示的是 d m d_m dm经过bert嵌入后的向量
e o e_o eo表示的是 d o d_o do经过bert嵌入后的向量
根据之前介绍的本文的思想就是将候选词mask后的文档与原文档进行一个相似度比较,如果相似度分数高则说明被mask的词没有重要性,不是关键词
以前的方法,例如SIFRank
和EmbedRank
都采用的是余弦相似度来进行相似度计算,但是 BERT 的句子嵌入空间在语义上是不平滑的,并且在某些区域定义不明确,这使得通过点积或余弦相似度等简单的相似度度量很难直接使用,因此我们决定也引入欧几里得距离
其中n
是文档的长度。由此可见这里是依次比较token级别的语义相似度
这个是本文的核心内容,也是对比学习出现的地方。、
受 MLM 的启发,我们将掩码采样方法更改为掩码文档的“关键短语”,以生成文档 D 的正样本 D p D_p Dp。对于负随机数,我们选择一个“非关键短语”并将其掩码在文档 D 中,得到 D n D_n Dn。
虽然绝对抽样取得了可喜的表现,但利用无监督关键短语提取方法生成伪标签的第一步抽样将在一定程度上影响模型训练。为了避免微调模型模仿之前的方法并使其更适合 MDERank,我们提出了一种细粒度的采样策略,“非关键短语”不再是排名低于阈值 k 的那些。我们从 YAKE 的 Top-K 结果中随机选择两个候选者,排名较高的将被视为“关键短语”,而另一个则为“非关键短语”。因此,我们可以根据两个候选者的排名来获得正例和负例,这可以看作是一种学习排序方法,教模型区分哪个候选者更可能是“关键短语”,而不是使用硬标签作为绝对采样
MDERank 在长文档数据集上取得了令人信服的结果。显着的改进是由于 MDERank 在我们计算文本相似度以进行排名时确保了序列长度的匹配。为了支持这一观点,我们进行了两个实验。第一个探讨了不同输入长度对 NUS 的影响。一开始,我们将文档截断在 128、256 和 512 个字以内。如下表所示
phrase-document预测的keyphrases的质量随着词数的增加而急剧下降,但每个形式的MDERank稳定,甚至随着词数的增加而有所提高。这反映了基于短语文档的方法很大程度上受序列长度的影响。然而,MDERank 在增加序列长度方面取得了进步,显示出更强大和潜在的更长文档的关键短语提取能力
还有其他消融实验,例如多样性判断,不同layer和pooling ways的影响,在这篇总结中就没有一一总结了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。