当前位置:   article > 正文

Ontonotes数据集处理详细教程

ontonotes

        因为我在得到ontonotes数据集后,想要由原来的文本格式,变成下图这种格式。(图源博客)。这篇博客写的很详细了,但我还是碰到了一点点问题,所以再梳理一个更详细的版本。

在这里插入图片描述

            首先,去这个网站,将下图中的文件下载(图源知乎

         下载后解压,前四个文件解压后会得到conll-2012文件夹,里面会有v4,v9两个文件夹。将conll-2012文件夹和下载得到的ontonotes数据集解压后的文件夹ontonotes-release-5.0放在同一目录,如下:

         第五个文件scripts解压后,将其中的两个文件,放在conll-2012/v4/scripts路径下,如下图:

        先打开.py文件,因为我是python3环境,这个代码是在python2环境下运行的,所以要进行一些修改。

         1. 将所有的print “xxxxxx”,变为print("xxxxx");所有的print,变为print()     就是加上括号

        2. 将except xxxx, e 变为 except xxxx as e      加上as

        保存

        然后,在这个文件夹下,Git bash here(不清楚怎么操作的,可以看这篇帖子),在命令行中运行如下命令:

skeleton2conll.sh -D [path/to/conll-2012-train-v0/data/files/data] [path/to/conll-2012]

         即可得到处理好的conll格式的文件啦

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/1012152
推荐阅读
相关标签
  

闽ICP备14008679号