当前位置:   article > 正文

ace2005 数据集预处理方法,oneie与JMEE方式_ace数据集

ace数据集

事件抽取研究中,一般常用的数据集有ace2005和tac等,ace2005是最常用的数据集,它的文件众多格式复杂,通常论文使用两种格式进行预处理,即

ONEIE 和JMEE ,并涉及数据划分方式的差异 以及保存的格式的差异。

下面来说下具体处理程序及方法:

oneIE : 原始论文为 A Joint Neural Model for Information Extraction with Global Features

处理程序下载: BLENDER Lab | Software

编写本文时为0.48版本,可以下载最新的。

处理程序为 preprocess下的process_ace.py , 处理命令行为:

注意要切换当前 目录到 oneie的根目录,如 ooneie-0.48

  1. ACE_DATA_FOLDER=<ACE_PATH> #改为实际的ace的目录
  2. mkdir -p data/ace05-EN
  3. python preprocessing/process_ace.py -i ${ACE_DATA_FOLDER}/data -o data/ace05-EN -s resource/splits/ACE05-E -b bert-large-cased -l english
  4. wc -l data/ace05-EN/*

将里面的-i 后面的路径改为你的ace数据集路径即可,要指向ace下的data目录,-o 后面的是输出 目录,自己创建一个并修改为你创建的路径。

不要问我怎么得到的ace数据集。。。。

JMEE方式,论文为 Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation

处理程序 及教程

(1条消息) ACE2005 英文语料预处理_Big Watermonster~的博客-CSDN博客

亲自测试的结果与上文相符 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/358458
推荐阅读
相关标签
  

闽ICP备14008679号