当前位置:   article > 正文

《大数据智能-big data intelligence》第二章:知识图谱

《大数据智能-big data intelligence》第二章:知识图谱

1. 什么是知识图谱

2. 知识图谱的构建

  • KG(knowledge graph)最重要的数据来源之一是维基百科、百度百科等大规模知识库,其包含大量的结构化的知识,可以高效转化到KG中;还有互联网的海量网页也蕴含了海量知识,通过自动化技术,将其抽取出来构建知识图谱。

2.1 大规模知识库

  • freebase、DBpedia、YAGO等

2.2互联网链接数据

  • W3C的开放互联数据项目(Linked Open Data,LOD),目的是把由互联文档组成的万维网(Web of documents)扩展成由互联数据组成的知识空间(Web of data)。
  • LOD以RDF(Resource Description FrameWork)形式在Web上发布各种开放数据集。
  • RDF将实体间的关系表示为(实体1,关系1,实体2)的三元组。

2.3互联网网页文本数据

  • 致力于直接从无结构的互联网网页中抽取结构化信息;项目有OpenIE(open information extraction)、NELL(never-ending language learning).
  • 缺点:网页形式多样,数据的噪声较多,信息可信度较低。

2.4多数据源的知识融合

-主要包括实体融合、关系融合、和实例融合三类。

3.KG的典型应用

  • 查询理解(Query Understanding)
  • 自动问答(Question Answering)
  • 文档表示(Document Representation):一种简单的基于KG的文档表示方案,可以将文档表示为KG的一个子图(sub-graph),即用该文档中出现或者涉及的实体及其关系所构成的图表示该文档。

4.KG的主要技术

4.1 实体链指(Entity Linking)

其主要任务是:
  • 实体识别(Entity Recognition):从文本中发现命名实体,如人名、地名等,对KG还有概念(concept)识别。

  • 实体消歧(Entity Disambiguation):基本思想是充分利用名字出现的上下文,分析不同实体可能出现在该处的概率。

4.2 关系抽取(Relation Extraction)

  • 典型的自举(bootstrapping)思想:按照“模板生成=>实例抽取”的流程不断迭代直至收敛。
    如通过“X是Y的首都”模板抽取出(中国,首都,北京)三元组实例;
    缺点引入噪声实例与模板,出现语义漂流现象,降低抽取准确率。
  • 通过识别表达语义关系的短语抽取:
    如(华为,将其总部建于,深圳)、(华为,总部位于,深圳)等,关系词是一个以动词为核心的饿短语。
    缺点自由度高,带来的关系语义没有归一化,于是带来挑战对关系进行聚类归约。
  • 关系看做标签的思想:把关系抽取转换为对实体对的关系分类问题。
    主要挑战是缺乏标注语料,于是提出远程监督(Distant Supervision):即用已有知识图谱中的三元组实例启发式地标注训练语料。

4.3 知识推理(Knowledge Reasoning)

  • 推理往往需要相关规则的支持,引出如何自动挖掘相关推理规则或模式。(关联挖掘技术)
  • 谓词逻辑(Predicate Logic)、马尔科夫逻辑网络(Markov Logic Network)等建模工具。

4.4 知识表示(Knowledge Representation)

  • 面向知识图谱的表示学习方案:将知识图谱中的实体和关系的语义信息用低维向量表示,这是一种分布式表示方案(Distributed Representation)。如模型transE(2013)。
  • 该方法仅需要知识图谱作为训练数据,而不需要外部的文本数据,又称为知识图谱补全(Knowledge Graph Completion)。
  • 与复杂网络中的链接预测(Link Prediction)类似,但是更复杂,因为再知识图谱中每个节点和连接边上都有标签(标记实体名和关系名)。

5.前景与挑战

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/657844
推荐阅读