当前位置:   article > 正文

NLP 与 Python:构建知识图谱实战案例_python文本构成知识图谱

python文本构成知识图谱

概括

积累了一两周,好久没做笔记了,今天,我将展示在之前两周的实战经验:如何使用 Python 和自然语言处理构建知识图谱。

image-1682394363412

网络图是一种数学结构,用于表示点之间的关系,可通过无向/有向图结构进行可视化展示。它是一种将相关节点映射的数据库形式。

知识库是来自不同来源信息的集中存储库,如维基百科、百度百科等。

知识图谱是一种采用图形数据模型的知识库。简单来说,它是一种特殊类型的网络图,用于展示现实世界实体、事实、概念和事件之间的关系。2012年,谷歌首次使用“知识图谱”这个术语,用于介绍他们的模型。

image-1682394370989

目前,大多数公司都在建立数据湖,这是一个中央数据库,它可以收集来自不同来源的各种类型的原始数据(包括结构化和非结构化数据)。因此,人们需要工具来理解所有这些不同信息的意义。知识图谱越来越受欢迎,因为它可以简化大型数据集的探索和发现。简单来说,知识图谱将数据和相关元数据连接起来,因此可以用来构建组织信息资产的全面表示。例如,知识图谱可以替代您需要查阅的所有文件,以查找特定的信息。

知识图谱被视为自然语言处理领域的一部分,因为要构建“知识”,需要进行“语义增强”过程。由于没有人想要手动执行此任务,因此我们需要使用机器和自然语言处理算法来完成此任务。

我将解析维基百科并提取一个页面,用作本教程的数据集(下面的链接)。

俄乌战争 - 维基百科 俄乌战争是俄罗斯与俄罗斯支持的分离主义者之间持续的国际冲突,以及… en.wikipedia.org

特别是将通过:

  • 设置:使用维基百科API进行网页爬取以读取包和数据。
  • NLP使用SpaCy:对文本进行分句、词性标注、依存句法分析和命名实体识别。
  • 提取实体及其关系:使用Textacy库来识别实体并建立它们之间的关系。
  • 网络图构建:使用NetworkX库来创建和操作图形结构。
  • 时间轴图:使用DateParser库来解析日期信息并生成时间轴图。

设置

首先导入以下库:

## for data
import pandas as pd  #1.1.5
import numpy as np  #1.21.0

## for plotting
import matplotlib.pyplot as plt  #3.3.2

## for text
import wikipediaapi  #0.5.8
import nltk  #3.8.1
import re   

## for nlp
import spacy  #3.5.0
from spacy import displacy
import textacy  #0.12.0

## for graph
import networkx as nx  #3.0 (also pygraphviz==1.10)

## for timeline
import dateparser #1.1.7
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22

Wikipedia-api是一个Python库,可轻松解析Wikipedia页面。我们将使用这个库来提取所需的页面,但会排除页面底部的所有“注释”和“参考文献”内容。

image-1682394385155

简单地写出页面的名称:

topic = "Russo-Ukrainian War"

wiki = wikipediaapi.Wikipedia('en')
page = wiki.page(topic)
txt = page.text[:page.text.find("See also")]
txt[0:500] + " ..."
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

image-1682394393622

通过从文本中识别和提取subjects-actions-objects来绘制历史事件的关系图谱(因此动词是关系)。

自然语言处理

要构建知识图谱,首先需要识别实体及其关系。因此,需要使用自然语言处理技术处理文本数据集。

目前,最常用于此类任务的库是SpaCy,它是一种开源软件,用于高级自然语言处理,利用Cython(C+Python)进行加速。SpaCy使用预训练的语言模型对文本进行标记化,并将其转换为“文档”对象,该对象包含模型预测的所有注释。

#python -m spacy download en_core_web_sm

nlp = spacy.load("en_core_web_sm")
doc = nlp(txt)
  • 1
  • 2
  • 3
  • 4

NLP模型的第一个输出是句子分割(中文有自己的分词规则):即确定句子的起始和结束位置的问题。通常,它是通过基于标点符号对段落进行分割来完成的。现在我们来看看SpaCy将文本分成了多少个句子:

# from text to a list of sentences
lst_docs = [sent for sent in doc.sents]
print("tot sentences:", len(lst_docs))
  • 1
  • 2
  • 3

image-1682394402995

现在,对于每个句子,我们将提取实体及其关系。为了做到这一点,首先需要了解词性标注(POS):即用适当的语法标签标记句子中的每个单词的过程。以下是可能标记的完整列表(截至今日):

  • ADJ: 形容词,例如big,old,green,incomprehensible,first
  • ADP: 介词,例如in,to,during
  • ADV: 副词,例如very,tomorrow,down,where,there
  • AUX: 助动词,例如is,has(done),will(do),should(do)
  • CONJ: 连词,例如and,or,but
  • CCONJ: 并列连词,例如and,or,but
  • DET: 限定词,例如a,an,the
  • INTJ: 感叹词,例如psst,ouch,bravo,hello
  • NOUN: 名词,例如girl,cat,tree,air,beauty
  • NUM: 数词,例如1,2017,one,seventy-seven,IV,MMXIV
  • PART: 助词,例如’s,not
  • PRON: 代词,例如I,you,he,she,myself,themselves,somebody
  • PROPN: 专有名词,例如Mary,John,London,NATO,HBO
  • PUNCT: 标点符号,例如.,(,),?
  • SCONJ: 从属连词,例如if,while,that
  • SYM: 符号,例如$,%,§,©,+,-,×,÷,=,
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/352144
推荐阅读
相关标签