当前位置:   article > 正文

【NLP公开数据集】OntoNotes Release 5.0数据集介绍_ontonotes是什么

ontonotes是什么

OntoNotes 5.0是OntoNotes项目的最后一个版本,是BBN Technologies、科罗拉多大学、宾夕法尼亚大学和南加州大学信息科学研究所之间的合作项目。

该项目的目标是对一个大型语料库进行注释,该语料库由三种语言(英语、汉语和阿拉伯语)的各种类型的文本(新闻、电话对话、网络日志、usenet新闻组、广播、脱口秀)组成,包含结构信息(语法和谓词论证结构)和浅层语义(与本体和核心参考相关联的词义)。

数据具体情况如下:

 ArabicEnglishChinese
News300k625k250k
BNn/a200k250k
BCn/a200k150k
Webn/a300k150k
Telen/a120k100k
Pivotn/an/a300

 

 

OntoNotes项目建立在两个久经考验的资源上,沿用了Penn Treebank的语法和Penn PropBank的谓语-论点结构。它的语义表示包括名词和动词的词义分解,一些词义与本体连接,以及核心参考。

数据

本版本的文档目录中包含了描述注释指南和从数据库中获取各种数据视图的例程的文档。注释既以单独的文本文件提供给每个注释层(Treebank、PropBank、词义等),也以集成关系数据库(ontonotes-v5.0.sql.gz)的形式提供,并以Python API提供方便的跨层访问。

这个版本包含一些非验证性的XML文件,这是一个已知的问题。然而,包含的工具使用一个非验证的XML解析器来解析.xml文件并加载适当的值。

工具

这个版本包括OntoNotes DB Tool v0.999 beta,该工具用于从原始注释文件组装数据库。它可以在目录tools/ontonotes-db-tool-v0.999b中找到。这个工具可以用来从数据库中导出数据的各种视图,它提供了一个API,可以实现新的查询或视图。OntoNotes DB工具包的许可信息包含在其源目录中。

例子

中文:

阿拉伯文:

 

英文:

下载及处理

由于下载有很多很好的文献这里就不详细写了。

可参考:

https://zhuanlan.zhihu.com/p/108797669

https://blog.csdn.net/m0_37722110/article/details/103441140

 

参考文献:【1】https://catalog.ldc.upenn.edu/LDC2013T19

(注:为学习记录所用,若有错误希望大家指出!)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/1012113
推荐阅读
相关标签
  

闽ICP备14008679号