当前位置:   article > 正文

conll-2012-formatted-ontonotes-5.0中文数据格式说明_ontonotes 5.0

ontonotes 5.0

CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。

CoNLL-2012 数据格式通常包括多列,每列包含不同类型的语言学信息。以下是一个典型的 CoNLL-2012 格式的例子,展示了它的列结构和类型:

  1. bc/cnn/00/cnn_0000 0 0 而且 AD (TOP(IP(ADVP*) - - - Paula_Zahn_#1E * (ARGM-DIS*) * -
  2. bc/cnn/00/cnn_0000 0 1 国防部长 NN (NP(NP*) - - - Paula_Zahn_#1E * (ARG0* * (195
  3. bc/cnn/00/cnn_0000 0 2 唐纳德·拉姆斯菲尔 NR (NP*)) - - - Paula_Zahn_#1E (PERSON) *) * 195)
  4. bc/cnn/00/cnn_0000 0 3 说 VV (VP* - 01 7 Paula_Zahn_#1E * (V*) * -
  5. bc/cnn/00/cnn_0000 0 4 更 AD (IP(NP(DNP(QP(ADVP*) - - - Paula_Zahn_#1E * (ARG1* (ARG0* (247
  6. bc/cnn/00/cnn_0000 0 5 多 CD (QP*)) - - 3 Paula_Zahn_#1E * * * -
  7. bc/cnn/00/cnn_0000 0 6 的 DEG *) - - - Paula_Zahn_#1E * * * -
  8. bc/cnn/00/cnn_0000 0 7 美国 NR (NP*) - - - Paula_Zahn_#1E (NORP) * * -
  9. bc/cnn/00/cnn_0000 0 8 士兵 NN (NP*)) - - - Paula_Zahn_#1E * * *) 247)
  10. bc/cnn/00/cnn_0000 0 9 可能 AD (VP(ADVP*) - - - Paula_Zahn_#1E * * (ARGM-ADV*) -
  11. bc/cnn/00/cnn_0000 0 10 不久 AD (ADVP*) - - - Paula_Zahn_#1E * * (ARGM-TMP*) -
  12. bc/cnn/00/cnn_0000 0 11 将 AD (ADVP*) - - - Paula_Zahn_#1E * * (ARGM-ADV*) -
  13. bc/cnn/00/cnn_0000 0 12 启程 VV (VP(VP*) - - - Paula_Zahn_#1E * * * -
  14. bc/cnn/00/cnn_0000 0 13 前往 VV (VP* - 01 - Paula_Zahn_#1E * * (V*) -
  15. bc/cnn/00/cnn_0000 0 14 伊拉克 NR (NP*)))))) - - - Paula_Zahn_#1E (LOC) *) (ARG1*) -
  16. bc/cnn/00/cnn_0000 0 15 . PU *)) - - - Paula_Zahn_#1E * * * -
  17. bc/cnn/00/cnn_0000 0 0 他 PN (TOP(IP(NP*) - - - Paula_Zahn_#1E * (ARG0*) * * * * * (195)
  18. bc/cnn/00/cnn_0000 0 1 说 VV (VP* - 01 7 Paula_Zahn_#1E * (V*) * * * * * -
  19. bc/cnn/00/cnn_0000 0 2 将 AD (IP(VP(ADVP*) - - - Paula_Zahn_#1E * (ARG1* (ARGM-ADV*) * * * * -
  20. bc/cnn/00/cnn_0000 0 3 暂时 AD (ADVP*) - - - Paula_Zahn_#1E * * (ARGM-ADV*) * * * * -
  21. bc/cnn/00/cnn_0000 0 4 需要 VV (VP* - 02 1 Paula_Zahn_#1E * * (V*) * * * * -
  22. bc/cnn/00/cnn_0000 0 5 他们 PN (IP(NP*) - - - Paula_Zahn_#1E * * (ARG1* (ARG0*) * * * (247)
  23. bc/cnn/00/cnn_0000 0 6 来 MSP (VP* - - 7 Paula_Zahn_#1E * * * * * * * -
  24. bc/cnn/00/cnn_0000 0 7 防止 VV (VP* - 01 - Paula_Zahn_#1E * * * (V*) * * * -
  25. bc/cnn/00/cnn_0000 0 8 十二月份 NT (NP(LCP(NP(NP*) - - - Paula_Zahn_#1E (DATE) * * (ARG1* * * * -
  26. bc/cnn/00/cnn_0000 0 9 伊拉克 NR (NP*) - - - Paula_Zahn_#1E (ORG* * * * * * * (206)
  27. bc/cnn/00/cnn_0000 0 10 国会 NN (NP* - - - Paula_Zahn_#1E *) * * * * * * -
  28. bc/cnn/00/cnn_0000 0 11 选举 NN *)) - - - Paula_Zahn_#1E * * * * * * * -
  29. bc/cnn/00/cnn_0000 0 12 前 LC *) - - - Paula_Zahn_#1E * * * * * * * -
  30. bc/cnn/00/cnn_0000 0 13 预料 VV (CP(CP(IP(VP* - 01 - Paula_Zahn_#1E * * * * (V*) * * -
  31. bc/cnn/00/cnn_0000 0 14 会 VV (IP(VP* - 02 - Paula_Zahn_#1E * * * * (ARG1* (V*) * -
  32. bc/cnn/00/cnn_0000 0 15 增长 VV (VP*))))) - 01 1 Paula_Zahn_#1E * * * * *) * (V*) -
  33. bc/cnn/00/cnn_0000 0 16 的 DEC *)) - - - Paula_Zahn_#1E * * * * * * * -
  34. bc/cnn/00/cnn_0000 0 17 叛乱 NN (NP* - - - Paula_Zahn_#1E * * * * * * * -
  35. bc/cnn/00/cnn_0000 0 18 袭击 NN *))))))))) - - - Paula_Zahn_#1E * *) *) *) * * * -
  36. bc/cnn/00/cnn_0000 0 19 . PU *)) - - - Paula_Zahn_#1E * * * * * * * -

每列的含义为:

      第一列是文件名。

      第二列是文档片段iid,大部分是0。

     后面几列为:

  1. Word index: 句子中的词索引。
  2. Word form: 词的原形。
  3. Part-of-Speech tag: 词性标签。
  4. Parse tree: 句法分析树的部分信息。
  5. Predicate lemma: 如果当前词是谓词,则为谓词的原形;否则为一个连字符。
  6. Predicate Frameset ID: 如果当前词是谓词,则为框架ID;否则为一个连字符。
  7. Word sense: 词的语义编号,如果适用的话。
  8. Speaker/Author: 说话者或作者。
  9. Named Entities: 命名实体标记。
  10. Predicate Arguments: 与谓词相关的语义角色标注。
  11. Coreference: 共指解析标记。

其中,共指标记中,相同数字的表示同一指代簇。

  1. /cctv/00/cctv_0000 0 4 熟知 VV (VP*))))) - 01 - Speaker#1 * (V*) * * -
  2. bc/cctv/00/cctv_0000 0 5 的 DEC *)) - - - Speaker#1 * * * * -
  3. bc/cctv/00/cctv_0000 0 6 卡通 NN (NP* - - - Speaker#1 * * * * (82
  4. bc/cctv/00/cctv_0000 0 7 形象 NN *)) - - - Speaker#1 * * *) * 82)
  5. bc/cctv/00/cctv_0000 0 8 以 P (VP(PP* - - - Speaker#1 * * (ARGM-MNR* * -
  6. bc/cctv/00/cctv_0000 0 9 其 PN (NP(NP*) - - - Speaker#1 * * * * (82)
  7. bc/cctv/00/cctv_0000 0 10 独有 JJ (DNP(ADJP*) - - - Speaker#1 * * * * -
  8. bc/cctv/00/cctv_0000 0 11 的 DEG *) - - - Speaker#1 * * * * -

这个示例中同一共指簇的信息为 [82, 9, 9], [82, 6, 7],表示第9个词“其”和第6和第7“卡通形象”,指代相同。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/1012145
推荐阅读
相关标签
  

闽ICP备14008679号