当前位置:   article > 正文

共指消解CoNLL-2012/OntoNotes数据集下载与处理_conll 12

conll 12

本文主要参考:https://blog.csdn.net/yangjingyi0730/article/details/113243282

1. 数据获取

数据集获取地址:https://catalog.ldc.upenn.edu/LDC2013T19

2. 数据处理

数据集处理方式:https://conll.cemantix.org/2012/data.html

  • 首先把网页中提到的所有tar或者tar.gz文件都下载下来,我下载的时候发现谷歌Chrome浏览器无法下载,尝试Safari浏览器之后成功下载。
  • 解压之后都放在conll-2012文件夹下,v3里放scripts文件夹,v4/data里放train、development和test,v9/data里放test,总而言之就是对应的version放进去就行了。
  • 然后进入conll-2012/v3/scripts,运行以下脚本,第一个参数是第一步下载得到的数据路径(后面加data/files/data),第二个参数是第二步得到的conll-2012文件夹的路径。
bash skeleton2conll.sh -D [path/to/ontonotes-release-5.0/data/files/data] [path/to/conll-2012]
  • 1

至此,everything is down!

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/1012171
推荐阅读
相关标签
  

闽ICP备14008679号