当前位置:   article > 正文

知识增强系列 ERNIE: Enhanced Representation through Knowledge Integration,论文解读

知识增强系列 ERNIE: Enhanced Representation through Knowledge Integration,论文解读

论文全称:通过知识集成增强语义表达

1. motivation

        ERNIE 目的在于通过知识屏蔽策略增强语言表示,其中屏蔽策略包括实体级屏蔽(Entity-level strategy)和短语级屏蔽(Phrase-level strategy)。 entity-level 策略通常会掩盖由多个单词组成的实体; Phrase-level 策略会掩盖由几个词共同作为概念单元的整体短语。

2. 模型

        论文中对于不同任务使用的模型分为两种,原始Bert结构,和本文针对‘对话数据’额外提出的Dialogue Language Model。

        非对话数据:模型整体结构没有改变,依然是Bert的结构,输入仍然是3个部分 token embedding + segment embedding + position embedding,整句话的第一个token是[CLS]。

        对话数据:Dialogue Language Model,segment embedding --> dialogue embedding,Q=question;A=answer

3. 知识屏蔽策略,一起训练?还是多阶段依次训练?

3.1 Basic-level Masking(Bert)

        将句子视为基本语言单元的序列,对于英语,基本语言单元是单词;对于中文,基本语言单元是汉字。

        在训练过程中,随机屏蔽 15% 的基本语言单元,并使用句子中的其他基本单元作为输入,并训练一个transformer来预测Mask的部分。

        基于Basic-level Masking,获得基本的单词表示。 因为它是在基本语义单元的随机掩码上训练的,高级语义知识很难完全建模。

3.2 短语阶段 Phrase-Level Masking

        第二阶段是使用短语级掩码。短语是一小组单词或字符,它们共同充当一个概念单元。

        对于英语,使用词法分析和分块工具来获取句子中短语的边界,并使用一些语言切分工具来获取其他语言(例如中文)的单词 / 短语信息。

        随机选择句子中的几个短语,对同一短语中的所有基本单元进行掩码和预测。 在这个阶段,短语信息被编码到词嵌入中。 

3.3 实体阶段 Entity-Level Masking

        名称实体包含人、地点、组织、产品等,可以用专有名称表示,这一步类似于‘成分切分’ or ‘命名实体识别’。

         与短语掩码阶段一样,首先分析句子中的命名实体,然后对实体中的所有槽进行掩蔽和预测。

4. 遗留问题

        看论文描述,将3种掩码策略混在一起使用,论文并未有具体描述 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/473447
推荐阅读
相关标签
  

闽ICP备14008679号