赞
踩
在事件抽取研究中,一般常用的数据集有ace2005和tac等,ace2005是最常用的数据集,它的文件众多格式复杂,通常论文使用两种格式进行预处理,即
ONEIE 和JMEE ,并涉及数据划分方式的差异 以及保存的格式的差异。
下面来说下具体处理程序及方法:
处理程序下载: BLENDER Lab | Software
编写本文时为0.48版本,可以下载最新的。
处理程序为 preprocess下的process_ace.py , 处理命令行为:
注意要切换当前 目录到 oneie的根目录,如 ooneie-0.48
- ACE_DATA_FOLDER=<ACE_PATH> #改为实际的ace的目录
- mkdir -p data/ace05-EN
- python preprocessing/process_ace.py -i ${ACE_DATA_FOLDER}/data -o data/ace05-EN -s resource/splits/ACE05-E -b bert-large-cased -l english
- wc -l data/ace05-EN/*
将里面的-i 后面的路径改为你的ace数据集路径即可,要指向ace下的data目录,-o 后面的是输出 目录,自己创建一个并修改为你创建的路径。
不要问我怎么得到的ace数据集。。。。
处理程序 及教程
(1条消息) ACE2005 英文语料预处理_Big Watermonster~的博客-CSDN博客
亲自测试的结果与上文相符
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。