赞
踩
核心要点:
简要信息:
序号 | 属性 | 值 |
---|---|---|
1 | 模型名称 | Example-NER |
2 | 发表位置 | |
3 | 所属领域 | 自然语言处理、小样本学习 |
4 | 研究内容 | 小样本实体识别 |
5 | 核心内容 | Metric Learning |
6 | GitHub源码 | |
7 | 论文PDF | https://arxiv.org/abs/2008.10570 |
Adding new categories requires fur- ther feature engineering, extensive data labeling, and the need to build a new model from scratch or continue to fine-tune the model.
Few-shot Learning时,在target domain上,只需要一个support set即可得到各个新的类的表示,因此直接对target domain的其他数据进行度量计算即可,因此不需要在target domain上进行训练;
Example-based NER指给定support set少量的样本,对应的所有entity type只有很少的实体。给定一个query时,模型会分别根据support set中的entity type寻找query对应的实体。如图所示:
作者认为有3个挑战:
● 如何设计train-free score;
● 需要对预训练语言模型进行微调;
● 需要解决训练和推理之间的gap;
NER包含两个步骤:首先识别出entity span,其次根据span进行分类。
模型架构如图所示:
结合上述图,具体的方法可以描述为如下几个步骤:
Step1: 采样support set和query set,其中support example中的实体添加边界标记<e>和</e>。
Step2: support example和query example分别喂入到BERT中获得每个token表示:
其中
q
i
,
s
i
q_i,s_i
qi,si分别表示query example和support example中第
i
i
i个token的表征向量;
Step3: 获得support set中<e>和</e>的表征向量:
Step4: 对于每个query token
q
i
q_i
qi,其与support set中的<e>和</e>对应的表征向量进行相似度计算,来获得
q
i
q_i
qi是start/end的概率:
Step5: 计算损失函数:损失主要来自于start、end预测:
注意⚠️:
- 构建support set数据时,一个句子中的所有实体均添加,标记,因为每个句子都有多个实体,因此将一个句子生成多个support example,保证每个support example只有一个entity;
- positive和negative example:因为support example只包含一个实体,因此在训练时需要添加negative example。例如如果当前positive entity type为“CITY”,则可以从support set中挑选entity type不为“CITY”的example作为negative example。因此相对于positive example,negative example表示的是不包含任何实体。
- 在训练时,是在source domain的query set进行的,此时每个query都对应positive和negative example。(例如第一张图中的quey,并没有“Device”类的实体,因此support set中“Device”对应的support example是negetive example,因此预测的区间是[CLS]。)
(We should highlight that similar to the QA framework, if the predicted span’s start and end occur on the [CLS] token, we treat it as no span for that entity type in the query.)
Step6: Entity Type Recognition
获得span之后,需要预测对应的entity type,本文依然使用example-based相似度方法。给定一个query,对于某个entity type,获得该entity type对应所有的support example:
对于所有entity type,在query example均可以得到span的得分,此时取得分最大的对应entity type。
实验使用的数据集包括:OntoNotes5.0 , Conll2003, ATIS, MIT Movie and Restaurant Review, and SNIPS。他们的数据分布情况如下所示:
(1)实验一
实验内容:OntoNotes5.0作为source domain,ATIS,MIT Movie,Restaurant,MixDomain(ATIS,MIT Movie,Restaurant混合起来)
实验结果:
● 我们的方法超越了baseline;
● 一般地,suuport example数量越多,效果越好。部分dataset提升明显,但也有负增长;
● Mixed Domain效果也最好,说明我们的方法与领域无关
(2)实验二:
实验内容:CoNLL03作为source domain,ATIS,MIT Movie,Restaurant,MixDomain(ATIS,MIT Movie,Restaurant混合起来)
实验结果:
(3)实验三:
实验内容:验证in-domain迁移能力,选择SNIPS数据集
实验结果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。