赞
踩
ACE2005数据集,共包涵来自weblogs, broadcast news, newsgroups, broadcast conversation等六类资源的含三种语言(Mandarin Chinese, Standard Arabic, English)的语料,最初被用于2005 Automatic Content Extraction(ACE)的评测。该语料包含了由Linguistic Data Consortium(LDC)提供支持进行标注的多种类型实体、关系和事件;目前,ACE2005数据较多被用于事件抽取任务中。
根据README,ACE2005的数据标注过程如下所示
首先分别进行1P和DUAL两轮标注,标注结果分别存储于对应语料的fp1和fp2目录下;
对以上两轮标注的结果进行裁决,将裁决后的标注结果存储于对应语料的adj目录下;
对于English语料,对adj/目录下标注结果再进行一步处理,将结果存储于timex2norm/目录下。
1P: entities DUAL: entities values values events events relations relations | | | | |_________?__________| | | | V ADJ: entities values events relations | | | V NORM: TIMEX2 normalization (English only)
─Arabic # 阿拉伯语语料库 │ ├─bn │ │ ├─adj │ │ ├─altAdj │ │ ├─fp1 │ │ └─fp2 │ ├─nw │ │ ├─adj │ │ ├─altAdj │ │ ├─fp1 │ │ └─fp2 │ └─wl │ ├─adj │ ├─fp1 │ └─fp2 ├─Chinese # 中文语料 │ ├─bn │ │ ├─adj │ │ ├─fp1 │ │ └─fp2 │ ├─nw │ │ ├─adj │ │ ├─fp1 │ │ └─fp2 │ └─wl │ ├─adj │ ├─fp1 │ └─fp2 ├─dtd # 数据说明文件 └─English # 英文语料 ├─bc │ ├─adj │ ├─fp1 │ ├─fp2 │ └─timex2norm ├─bn │ ├─adj │ ├─fp1 │ ├─fp2 │ └─timex2norm ├─cts │ ├─adj │ ├─fp1 │ ├─fp2 │ └─timex2norm ├─nw │ ├─adj │ ├─fp1 │ ├─fp2 │ └─timex2norm ├─un │ ├─adj │ ├─fp1 │ ├─fp2 │ └─timex2norm └─wl ├─adj ├─fp1 ├─fp2 └─timex2norm
以English/bn/CNN_ENG_20030630_085848.18为例。
根据官方README中第六部分,每份语料由如下所示的5个文件组成。
Source Text (.sgm) Files - These files contain the source text files in an SGM format. These files use the UNIX-style end of lines. All .sgm files are in UTF-8. ACE Program Format (APF) (.apf.xml) Files - These files are in the official ACE annotation file format. See section 8 for more details. AG (.ag.xml) Files - These are annotation files created with the LDC's annotation toolkit. These files have been convetered to the corresponding .apf.xml files. ID table (.tab) Files - These files store mapping tables between the IDs used in the ag.xml files and their corresponding apf.xml files. AIF (.aif.xml) Files - These are annotation files created with MITRE's Callisto annotation tool. Applies only to Arabic data produced by Valorem.
以/English/bn/CNN_ENG_20030630_085848.18为例(官网给出的样例数据也是CNN_ENG_20030630_085848.18),进行具体的解读:
sgm文件即是数据源文件,给出了数据原文。其中,关于各个、等标签的含义,可见dtd/ace_source_sgml.v1.0.2.dtd。
<DOC> <DOCID> CNN_ENG_20030630_085848.18 </DOCID> <DOCTYPE SOURCE="broadcast news"> NEWS STORY </DOCTYPE> <DATETIME> 2003-06-30 09:23:30 </DATETIME> <BODY> <TEXT> <TURN> a wildfire in california forced hundreds of people from their homes. the fire, near the historic state park started yesterday when a trailer, hauled by a pickup, ignited on the golden state freeway. the fire consumed more than 500 acres is only about 35% contained. no injuries have been reported thankfully hat this time. </TURN> </TEXT> </BODY> <ENDTIME> 2003-06-30 09:23:54 </ENDTIME> </DOC>
.apf.xml文件是ACE标注过实体、关系、事件等要素后以XML格式呈现的文本,具体可见官网给出的样例, .apf.xml文件的说明文档是dtd/ace_source_sgml.apf.v5.1.1.dtd。
根据dtd/ace_source_sgml.apf.v5.1.1.dtd, ag.xml文件中标注的要素包括
entity包含4个必须具备的属性:ID,TYPE,SUBTYPE和CLASS
entity属性中的TYPE共有7类,分别是PER、ORG、LOC、GPE、FAC、VEH和WEA;每一类下都有若干对应的子类,具体可见dtd/ace_source_sgml.apf.v5.1.1.dtd文档;
entity可能包含的元素有entity mention、entity_attributes,external_link,具体可见文档
LDCTYPE及其子类什么意思???METONYMY_MENTION (TRUE|FALSE)和LDCATR(TRUE|FALSE)什么意思???
value包含3个必须具备的属性:ID,TYPE和SUBTYPE
value的TYPE共有5类,分别是Numeric、Contact-Info、Crime、Job-Title和Sentence;每一类下都有若干对应的子类,具体可见dtd/ace_source_sgml.apf.v5.1.1.dtd文档;
value包含的元素是value mention, 其必备属性是ID
timex2的必备属性是ID,其他可选属性包括VAL、MOD(BEFORE|AFTER|ON_OR_BEFORE|…|APPROX)、ANCHOR_VAL、ANCHOR_DIR(WITHIN|…|BEFORE|AFTER)、SET(YES)、NON_SPECIFIC(YES)和COMMENT
timex2还包括timex2 mention, 其必备属性是ID
ldc_scope, char_span.seq_char是什么???
relation包含2个必须具备的属性:ID和TYPE,其他可选属性包括SUBTYPE、MODALITY和TENSE
relation可能包含包含3个元素,分别是relation_argument,relation_argument+,和relation_mention*
Some Explaination
METONYMY relations mark cross-type metonymies, and will not have relation mentions or values for MODALITY and TENSE. For these reasons, we use "relation_mention*" instead of "relation_mention+", and "#IMPLIED" for MODALITY and TENSE.
relation包含6个必须具备的属性,分别是TYPE (Life|…|Justice)、SUBTYPE(Be-Born|…|Appeal)、MODALITY (Asserted|Other)、POLARITY (Positive|Negative)、GENERICITY(Generic|Specific)、TENSE(Past|…|Unspecified)
event可能包含包含2个元素,分别是event_argument*,event_mention+
注意,apf.xml文件中Event标注部分的anchor是event trigger.
.ag.xml文件是ACE ToolKit标注后的问题,根据ag.xml转化得到pdf.xml,, .ag.xml文件的说明文档是dtd/ace_source_sgml.ag-1.1.dtd。
.tab文件存储了ag.xml文件中ID于apf.xml中标注结果的映射
以上是基本的数据理解,具体再根据读论文的情况进行补充。
如有不当与缺失之处,欢迎阅读此文的朋友一起交流。
2019.06.08
了解更多论文分享信息,请关注公众号深度学习的知识小屋
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。