赞
踩
最近一直在做相关的研究。
但是输出太少,我也不知道自己到底懂了没懂。
以后将每日学习记录输出到博客自己看。
剩下一个月好好加油(之前都实习去了,乱七八糟)
关系抽取中的几个文件
initial文件
reading word embedding data
处理词向量
vec.txt是预训练词嵌入文件。
此文件是从《纽约时报注释语料库》(LDC数据LDC2008T19)中学习的。
从纽约时报注释语料库中获取。
实体嵌入是随机初始化的。
实体嵌入中的实体数应与train.txt中的实体数相同。
原data目录中含五个文件
train.txt:训练文件,格式
(fb_mid_e1,fb_mid_e2,e1_name,e2_name,关系,句子)。
{
"text": "Not many people have cooler family closets to raid than Theodora Richards , the daughter of the Rolling Stones guitarist Keith Richards and the 70 's supermodel Patti Hansen .",
"relation": "/people/person/children",
"h": {"id": "/guid/9202a8c04000641f8000000000dad102",
"name": "Patti Hansen",
"pos": [161, 173]},
"t": {"id": "/guid/9202a8c04000641f8000000000d4eb59",
"name": "Theodora Richards",
"pos": [56, 73]}}
test.txt:测试文件,格式与train.txt相同。
Relation2id.txt:所有关系和对应的ID,每行一个。
vec.txt:预训练词嵌入文件。
entity_ebd.npy:实体嵌入文件。
CRF层,用于学习到标签的约束条件。
参考
https://www.bilibili.com/video/BV1BK4y1C7Hj?from=search&seid=16670832614159685369
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。