当前位置:   article > 正文

ACE2005数据预处理步骤

ace2005

nlpcl-lab/ace2005-预处理:ACE 2005 事件提取任务的语料库预处理 (github.com)

处理步骤是按照上述GitHub上ACE2005数据处理标星最多的代码来进行的。

(34条消息) Ace2005英文数据解析过程(事件抽取)_hlee-top的博客-CSDN博客

这篇博客是对上面代码的解读。

  1. 准备 ACE 2005 数据集

    (下载:ACE 2005 Multilingual Training Corpus - Linguistic Data Consortium。请注意,ACE 2005 数据集不是免费的!!如果学校有购买ACE2005的数据集的话可以免费下载,如果学校没有购买的话,需要自行花费4000美元。获取方式如下:(34条消息) ACE2005数据集获取方式详细介绍_想努力的人的博客-CSDN博客,下载下来的数据放在了根目录下,新建了个data的包

  2. 安装软件包 pip install stanfordcorenlp beautifulsoup4 nltk tqdm

  3. 下载斯坦福-科伦尔普模型

    wget http://nlp.stanford.edu/software/stanford-corenlp-full-2018-10-05.zip
    unzip stanford-corenlp-full-2018-10-05.zip
    但是我按照上述方法并没有下载成功,出现了unzip的路径配置的相关问题,于是就直接按照上面提到的网址http://nlp.stanford.edu/software/stanford-corenlp-full-2018-10-05.zip直接下载到了本地,将文件装在了根目录下。
  4. 然后就直接运行main文件

首先,第一个坑,运行main文件的时候,一直报没有cannot import name 'Parser'的错误,于是去parser.py运行了一下,发现这个模块的错误是一堆np的错误以及LookupError:Resource punkt not found.  Please use the NLTK Downloader to obtain the resource:的错误。一堆np的报错没有管,先看第二个报错,于是按照提示在程序上方写了:

import nltk

nltk.download('punkt')

接下来这部分代码报错,显示的是加载时间过长,还是没有下载成功。于是找到了下方教程,按照教程下载了punkt的包,这个问题成功解决。

使用nltk时,报错Resource punkt not found - 知乎 (zhihu.com)

第二个坑,上面的问题解决后,还是报cannot import name 'Parser' from parser的错误,于是干脆直接把Parser这个类复制到了main文件中。接下来没有报错,成功运行了。

程序一直报这面的错误,但是没有管。

 最终

 

 第三个坑,就在我以为万事大吉的时候,train文件又出问题了

某个文件出问题了,于是我直接删掉了这几个文件

 

 然后又报错了

于是又翻了一下这个博客,发现还有个data_list.csv,把这个文件的名字删掉了,然后再运行,可以跑起来了。

(35条消息) Ace2005英文数据解析过程(事件抽取)_hlee-top的博客-CSDN博客

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/358441
推荐阅读
相关标签
  

闽ICP备14008679号