赞
踩
Motivation:
在多语言的文本分类问题上一般都面临两个问题:一是计算成本会随着语言数量的增加而线性增加;模型缺乏不同语言之间知识迁移能力,也就是在一种语言上习得的知识不能应用到另一种语言上。当前解决上述问题的方案都需要不同语言的文本具有相同的标签,但是这个要求往往很难得到满足。因此,本文提出一种多语言的分层注意力模型,该模型在保证尽量少添加参数的同时,使模型具有知识迁移的能力。
单语模型结构:
分层注意力网络实现文本分类一般要经过三个步骤:
多语言模型结构:
模型整体框架和上面类似,区别在于为了降低参数量和学习不同语言文本的结构共享了一部分参数信息:一、共享encoders部分的参数;二、共享attention部分的参数;三、共享encoders和attention的参数(both)。
此外,在对其中一种语言更新参数的过程中也要更新其他语言的参数,因此有如下损失函数的公式:
实验结果:
分别从full-resource scenario和low-resource scenario观察模型的F1值。
在full-resource场景下,对于以上三种共享参数的模型,可以发现共享attention层的参数会达到最好的效果,而share both反而会带来性能下降。此外,在其他语言上训练的模型在目标语言上也能测试不错的效果,体现了知识的迁移能力。
在low-resource场景下,多语言模型比单语言模型在少量数据的表现更好。并且,往往share both能取得最好的效果。
总结:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。