当前位置:   article > 正文

FGN: Fusion Glyph Network for Chinese Named Entity Recognition

fgn: fusion glyph network for chinese named entity recognition

结合中文字形处理NLP任务的并不多推荐一篇:Glyce2.0,中文字形增强BERT表征能力

paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf

github:https://github.com/AidenHuen/FGN-NER

Model

在本节中,我们将详细介绍用于NER任务的FGN。如图1所示,FGN可以分为三个阶段:表示阶段、融合阶段和标记阶段。我们采用基于字符的序列标记策略。

Representation Stage

我们主要使用字符表示和符号表示,它们分别由BERT和CGS-CNN编码。此外,我们还对每个字符的根进行编码,以便在符号表示和根表示之间进行进一步的实验。这些表示的细节如下:

Frozen BERT

BERT本质上是一个多层转换器编码器,它为单词或字符提供分布式表示。我们使用预先训练好的基于字符的BERT在句子中对每个字符进行编码。与常规的微调策略不同,我们首先在训练集上对BERT进行微调,并使用CRF层作为tagger。然后冻结BERT参数并将它们转移到另一个BERT结构中,这是FGN的一部分。采用这种策略的原因是,微调BERT只需要最小的学习速率,而初始化FGN的参数需要100倍的学习速率来调整。随后的实验证明了该策略的有效性。

CGS-CNN

                                             

图2描述了CGS-CNN的体系结构。与Glyce使用7种不同的是,我们只选择简单的汉字来生成字形矢量。CGS-CNN的输入格式是句子而不是单个字符。我们首先将句子转换成图序列,用50×50灰度图替换字符。非中文字符被赋予相应的值在0到1之间的随机矩阵。然后,我们提供两个3×3×3的三维卷积层来编码图序列,并输出每个具有8个通道的50×50图。三维卷积可以从空间和时间两个维度提取特征,这意味着每个符号向量可以从相邻的图形中获得额外的符号信息。利用对图序列维数的填充,经过三维卷积后可以保持图序列的长度不变,这是基于字符的标记所必需的。然后将三维卷积的输出通过若干组二维卷积和二维max pooling将每个图压缩为2×2的64通道Tianzige-structure。为了过滤噪声和空白像素,我们将2×2的结构压平,并采用1D max pooling为每个字符提取字形向量。字形向量的大小为64,远远小于Tianzige-CNN输出的大小(1024维)。

与Glyce通过设置图像分类任务来学习符号表示不同,CGS-CNN在训练整个NER模型的同时,也学习了其中的参数。因为我们只使用简单的中文脚本,所以设置任务来预测这个脚本的字符id似乎是没有意义的。

Radical Representation

我们把汉字组织成根序列。例如,“朝”字(早上)可分为{(十)“十”,“日”(太阳),“十”、“月”(月亮)}。字根嵌入的字符可以被定义为

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/961265
推荐阅读
相关标签