FGN: Fusion Glyph Network for Chinese Named Entity Recognition

作者：酷酷是懒虫 | 2024-08-11 00:43:41

踩

fgn: fusion glyph network for chinese named entity recognition

结合中文字形处理NLP任务的并不多推荐一篇：Glyce2.0，中文字形增强BERT表征能力

paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf

github:https://github.com/AidenHuen/FGN-NER

Model

在本节中，我们将详细介绍用于NER任务的FGN。如图1所示，FGN可以分为三个阶段：表示阶段、融合阶段和标记阶段。我们采用基于字符的序列标记策略。

Representation Stage

我们主要使用字符表示和符号表示，它们分别由BERT和CGS-CNN编码。此外，我们还对每个字符的根进行编码，以便在符号表示和根表示之间进行进一步的实验。这些表示的细节如下:

Frozen BERT

BERT本质上是一个多层转换器编码器，它为单词或字符提供分布式表示。我们使用预先训练好的基于字符的BERT在句子中对每个字符进行编码。与常规的微调策略不同，我们首先在训练集上对BERT进行微调，并使用CRF层作为tagger。然后冻结BERT参数并将它们转移到另一个BERT结构中，这是FGN的一部分。采用这种策略的原因是，微调BERT只需要最小的学习速率，而初始化FGN的参数需要100倍的学习速率来调整。随后的实验证明了该策略的有效性。

CGS-CNN

图2描述了CGS-CNN的体系结构。与Glyce使用7种不同的是，我们只选择简单的汉字来生成字形矢量。CGS-CNN的输入格式是句子而不是单个字符。我们首先将句子转换成图序列，用50×50灰度图替换字符。非中文字符被赋予相应的值在0到1之间的随机矩阵。然后，我们提供两个3×3×3的三维卷积层来编码图序列，并输出每个具有8个通道的50×50图。三维卷积可以从空间和时间两个维度提取特征，这意味着每个符号向量可以从相邻的图形中获得额外的符号信息。利用对图序列维数的填充，经过三维卷积后可以保持图序列的长度不变，这是基于字符的标记所必需的。然后将三维卷积的输出通过若干组二维卷积和二维max pooling将每个图压缩为2×2的64通道Tianzige-structure。为了过滤噪声和空白像素，我们将2×2的结构压平，并采用1D max pooling为每个字符提取字形向量。字形向量的大小为64，远远小于Tianzige-CNN输出的大小(1024维)。

与Glyce通过设置图像分类任务来学习符号表示不同，CGS-CNN在训练整个NER模型的同时，也学习了其中的参数。因为我们只使用简单的中文脚本，所以设置任务来预测这个脚本的字符id似乎是没有意义的。

Radical Representation

我们把汉字组织成根序列。例如,“朝”字(早上)可分为{(十)“十”,“日”(太阳),“十”、“月”(月亮)}。字根嵌入的字符可以被定义为

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/961265