赞
踩
OntoNotes 5.0是OntoNotes项目的最后一个版本,由BBN Technologies、科罗拉多大学、宾夕法尼亚大学和南加州大学信息科学研究所之间的合作项目共同开发。该项目的核心目标是对一个大型语料库进行深入的注释。这个语料库涵盖了英语、汉语和阿拉伯语三种语言的各种类型文本,包括新闻、电话对话、网络日志、usenet新闻组、广播以及脱口秀等,内容极为丰富。
OntoNotes 5.0数据集的特色在于它不仅包含了文本的结构信息,如语法和谓词论证结构,还涵盖了浅层的语义信息,如与本体和核心参考相关联的词义。这使得该数据集成为研究语义、句法及语言结构的重要资源。
在具体实现上,OntoNotes 5.0沿用了Penn Treebank的语法和Penn PropBank的谓语-论点结构,保证了其数据标注的准确性和权威性。此外,该版本的数据集中还包含了一些非验证性的XML文件,尽管这是一个已知的问题,但这并不影响其作为研究资源的价值。
OntoNotes 5.0数据集的重要性在于它为众多研究人员及开发人员提供了丰富的语义注释数据。这些数据已被广泛用于命名实体识别、词性标注、句法分析、语义角色标注等任务的研究和开发中,对推动自然语言处理领域的进展做出了显著贡献。
需要注意的是,OntoNotes 5.0数据集只能通过Linguistic Data Consortium(LDC)进行获取。LDC是一个权威的语料库资源中心,除了OntoNotes 5.0外,还提供了包括阿拉伯语、汉语和英语新闻文本、布朗语料库全文以及来自交换机与费舍库的大量英语电话语音等数据资源。
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复Ontnotes 5.0 LDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。