赞
踩
在本文中,我们提出了一个称为ERNIE的模型,通过知识mask策略实现知识整合。除了基本的mask策略外,我们还使用了两种知识mask:短语级mask和实体级mask。
Transformer编码器
ERNIE使用多层Transformer编码器作为基本的encoder。Transformer可以通过自我注意捕获句子中每个token的上下文信息,并生成一系列上下文embedding。
知识集成
提出了一种多阶段知识mask策略,将短语级和实体级知识整合到语言表示中,而不是直接加入知识embedding。
基本级mask
英语的基本语言单位是单词,中文的基本语言单位是汉字。随机屏蔽15%的基本语言单位并通过上下文对屏蔽的基本语言单位进行预测。由于它是在基本语言单位的随机mask上进行训练,高层次的语义知识很难被完全建模。
短语级mask
短语是一组词或字符。对于英语,使用词法分析和组件工具来提取句子中短语的边界,在汉语中使用分词工具来获取词/短语信息。在本阶段随机选择句子中的短语进行mask并预测同一短语中的所有基本单元。
实体级mask
与短语mask阶段一样,我们首先分析句子中的命名实体,然后mask并预测实体中的所有槽。
实验
ERNIE使用12个编码层,768的隐藏单元和12个注意力头。ERNIE采用异构语料库进行预训练,包括中文维基,百度百科,百度新闻,百度贴吧。
结论
ERNIE在5个中文语言处理任务中表现都比BERT好,我们证实了知识整合和对异构数据的预训练都能使模型获得更好的语言表示。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。