赞
踩
做实体提取任务,结合例子记录globalpointer的带旋转位置编码的过程。
例子:所以大多数人都是从巴厘岛南部开始环岛之旅。
共有21个汉字
标签:"scene": 9,
共有10个标签
目标{“scene”:” 巴厘岛”}
经过bert-base-chinese编码,再经过全连加权得到q[1][21][10][64],和k[1][21][10][64],
其中第一维度是batch_size,本样例只有一个句子,所以为1
第二维度是对应每个位置,本句共有21个句子
第三维度是对应每个标签,共有10个标签
第四维度是d,在测评程序里取64,即旋转位置矩阵的大小
model = GlobalPointer(encoder,ent_type_size, 64),最后的参数是d
然后对于每个位置计算旋转位置矩阵,利用公式θi=10000^(−2i/d) ,i取0到d/2-1计算矩阵,然后对于取值在1到21的位置m,计算下面的矩阵
和
然后取q的第四个维度,进行如下运算:
其中⊗是逐位对应相乘,得到矩阵qw,对于k也进行同样操作,得到kw
此时qw和kw都是[1][21][10][64]维度的,定义为[b][m][h][d]和[b][n][h][d]
然后把b和h维度提前,把md和nd维度进行矩阵相乘,得到新的矩阵logit[b][h][m][n]
即logit[1][10][21][21]
Logit即要求的打分函数s_a(i,j),即logit[1][a][i][j]可理解为i位置到j位置的字段是实体a的打分
然后把主对角线的下三角部分全部取负数,即使得当i>j的时候,logit[1][a][i][j]一定为负,从而使得实体结果i>=j,即实体字段至少包含一个汉字,然后每一位除以d/2确保数字不会太大。
最后对于每个句子,找到logit矩阵中大于0的位置,在本样例中,logit[1][9][10][12]>0,然后由于句子数组是从0开始的,而m是从1开始的,所以我们取[9,11]字段作为实体,即“巴厘岛”,而实体标签类型是9号标签,即scene,所以组合在一起就有:{“scene”:” 巴厘岛”}
关于损失函数
使得当给出的训练集中i,j字段是实体的时候,后半部,即Q的部分无限接近0,不是实体的时候,前半部,即p的部分无限接近0
从而是实体时,只要使得前半部损失函数最小,即最大化sa,即打分函数
而不是实体时相反,使得打分函数尽量小,从而使得损失函数最小
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。