赞
踩
转自:https://www.pianshen.com/article/18031554181/
ACE2005语料库是语言数据联盟(LDC)发布的由实体,关系和事件注释组成的各种类型的数据,包括英语,阿拉伯语和中文培训数据,目标是开发自动内容提取技术,支持以文本形式自动处理人类语言。
ACE语料解决了五个子任务的识别:entities、values、temporal expressions、relations and events。这些任务要求系统处理文档中的语言数据,然后为每个文档输出有关其中提到或讨论的实体,值,时间表达式,关系和事件的信息。
ACE2005数据集是收费的,可在LDC联盟的官网上进行购买
购买过程也比较繁琐:
1. 首先要注册LDC账号: LDC账号注册地址
注册时要注意Organization选项, LDC注册账号后是没有资格购买数据集的,只有加入了LDC上注册的组织(比如你的学校,可以尝试输入自己学校的英文名,如果学校注册过会出现相应选项)才有资格购买数据集(出现购买按钮)。
2. 加入LDC注册的组织
- 注册账号时填写了组织后,需要组织管理员的审批才能完成加入组织,加入组织后才能出现相关的购买按钮。
而你的组织管理员很可能已经毕业了,或者常年不登陆(我就是如此情况)
这时候我们可以联系LDC官方要求他给我们提供组织管理员的联系方式以联系组织管理员(LDC会要求你出示组织的相关证明,比如让我用学校邮箱发送一封邮件)
具体联系方式是给LDC官方发送英文邮件,LDC官方邮箱: ldc@ldc.upenn.edu
回复速度相当快,一个工作日内必定回复,毕竟人家是盈利组织。
- 不过往往你获得了联系方式也联系不上组织管理员,我得到的组织管理员电话已被停机,邮箱发了邮件后也一直没有回复。
这种情况我们继续联系LDC官方说明此情况,LDC官方会直接把你加入你的组织,并希望你能推荐你们学校的教授担任组织管理员。
这时候无论你推不推荐,都可以直接购买数据集了。
3. 购买ACE2005数据集
首先LDC组织注册后是可以缴费成为会员的,比如我们想购买ACE2005数据集是2006年发布的数据集,如果你的组织在2006年办了会员,那么你就可以免费获取数据集(按照官方说法,应该可以直接下载数据集)
非营利组织:2400美元/年
营利组织:24000美元/年
如果你的组织并非2006年会员那么就需要单独购买ACE2005数据集,售价$4000,注意是美金。
在我们成功加入组织后,在链接的最下方,就有了购买的按钮。这里由于我已经购买过该数据集,所以Fee是0,第一次购买费用为$4000.
ACE2005语料库的获取链接:ACE2005数据集获取地址
4. 下载LDC数据集
购买数据集后不会立刻可以下载,并且下载费用也没有变化,这是因为LDC官方需要审核后才能让你下载,当然你也可以再向LDC发邮件催促一下,LDC官方会立刻审核通过,然后发邮件告知你。
这时我们就可以在LDC网站的右上方My Account,Downloads中看到ACE2005数据集了
点击即可下载,等待它下载完成即可。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。