赞
踩
nlpcl-lab/ace2005-预处理:ACE 2005 事件提取任务的语料库预处理 (github.com)
处理步骤是按照上述GitHub上ACE2005数据处理标星最多的代码来进行的。
(34条消息) Ace2005英文数据解析过程(事件抽取)_hlee-top的博客-CSDN博客
这篇博客是对上面代码的解读。
准备 ACE 2005 数据集。
(下载:ACE 2005 Multilingual Training Corpus - Linguistic Data Consortium。请注意,ACE 2005 数据集不是免费的!!如果学校有购买ACE2005的数据集的话可以免费下载,如果学校没有购买的话,需要自行花费4000美元。获取方式如下:(34条消息) ACE2005数据集获取方式详细介绍_想努力的人的博客-CSDN博客,下载下来的数据放在了根目录下,新建了个data的包
安装软件包 pip install stanfordcorenlp beautifulsoup4 nltk tqdm
下载斯坦福-科伦尔普模型
wget http://nlp.stanford.edu/software/stanford-corenlp-full-2018-10-05.zip unzip stanford-corenlp-full-2018-10-05.zip 但是我按照上述方法并没有下载成功,出现了unzip的路径配置的相关问题,于是就直接按照上面提到的网址http://nlp.stanford.edu/software/stanford-corenlp-full-2018-10-05.zip直接下载到了本地,将文件装在了根目录下。
首先,第一个坑,运行main文件的时候,一直报没有cannot import name 'Parser'的错误,于是去parser.py运行了一下,发现这个模块的错误是一堆np的错误以及LookupError:Resource punkt not found. Please use the NLTK Downloader to obtain the resource:的错误。一堆np的报错没有管,先看第二个报错,于是按照提示在程序上方写了:
import nltk
nltk.download('punkt')
接下来这部分代码报错,显示的是加载时间过长,还是没有下载成功。于是找到了下方教程,按照教程下载了punkt的包,这个问题成功解决。
使用nltk时,报错Resource punkt not found - 知乎 (zhihu.com)
第二个坑,上面的问题解决后,还是报cannot import name 'Parser' from parser的错误,于是干脆直接把Parser这个类复制到了main文件中。接下来没有报错,成功运行了。
程序一直报这面的错误,但是没有管。
最终
第三个坑,就在我以为万事大吉的时候,train文件又出问题了
某个文件出问题了,于是我直接删掉了这几个文件
然后又报错了
于是又翻了一下这个博客,发现还有个data_list.csv,把这个文件的名字删掉了,然后再运行,可以跑起来了。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。