赞
踩
因为我在得到ontonotes数据集后,想要由原来的文本格式,变成下图这种格式。(图源博客)。这篇博客写的很详细了,但我还是碰到了一点点问题,所以再梳理一个更详细的版本。
下载后解压,前四个文件解压后会得到conll-2012文件夹,里面会有v4,v9两个文件夹。将conll-2012文件夹和下载得到的ontonotes数据集解压后的文件夹ontonotes-release-5.0放在同一目录,如下:
第五个文件scripts解压后,将其中的两个文件,放在conll-2012/v4/scripts路径下,如下图:
先打开.py文件,因为我是python3环境,这个代码是在python2环境下运行的,所以要进行一些修改。
1. 将所有的print “xxxxxx”,变为print("xxxxx");所有的print,变为print() 就是加上括号
2. 将except xxxx, e 变为 except xxxx as e 加上as
保存
然后,在这个文件夹下,Git bash here(不清楚怎么操作的,可以看这篇帖子),在命令行中运行如下命令:
skeleton2conll.sh -D [path/to/conll-2012-train-v0/data/files/data] [path/to/conll-2012]
即可得到处理好的conll格式的文件啦
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。