赞
踩
积累了一两周,好久没做笔记了,今天,我将展示在之前两周的实战经验:如何使用 Python 和自然语言处理构建知识图谱。
网络图是一种数学结构,用于表示点之间的关系,可通过无向/有向图结构进行可视化展示。它是一种将相关节点映射的数据库形式。
知识库是来自不同来源信息的集中存储库,如维基百科、百度百科等。
知识图谱是一种采用图形数据模型的知识库。简单来说,它是一种特殊类型的网络图,用于展示现实世界实体、事实、概念和事件之间的关系。2012年,谷歌首次使用“知识图谱”这个术语,用于介绍他们的模型。
目前,大多数公司都在建立数据湖,这是一个中央数据库,它可以收集来自不同来源的各种类型的原始数据(包括结构化和非结构化数据)。因此,人们需要工具来理解所有这些不同信息的意义。知识图谱越来越受欢迎,因为它可以简化大型数据集的探索和发现。简单来说,知识图谱将数据和相关元数据连接起来,因此可以用来构建组织信息资产的全面表示。例如,知识图谱可以替代您需要查阅的所有文件,以查找特定的信息。
知识图谱被视为自然语言处理领域的一部分,因为要构建“知识”,需要进行“语义增强”过程。由于没有人想要手动执行此任务,因此我们需要使用机器和自然语言处理算法来完成此任务。
我将解析维基百科并提取一个页面,用作本教程的数据集(下面的链接)。
俄乌战争 - 维基百科 俄乌战争是俄罗斯与俄罗斯支持的分离主义者之间持续的国际冲突,以及… en.wikipedia.org
特别是将通过:
首先导入以下库:
## for data import pandas as pd #1.1.5 import numpy as np #1.21.0 ## for plotting import matplotlib.pyplot as plt #3.3.2 ## for text import wikipediaapi #0.5.8 import nltk #3.8.1 import re ## for nlp import spacy #3.5.0 from spacy import displacy import textacy #0.12.0 ## for graph import networkx as nx #3.0 (also pygraphviz==1.10) ## for timeline import dateparser #1.1.7
Wikipedia-api是一个Python库,可轻松解析Wikipedia页面。我们将使用这个库来提取所需的页面,但会排除页面底部的所有“注释”和“参考文献”内容。
简单地写出页面的名称:
topic = "Russo-Ukrainian War"
wiki = wikipediaapi.Wikipedia('en')
page = wiki.page(topic)
txt = page.text[:page.text.find("See also")]
txt[0:500] + " ..."
通过从文本中识别和提取subjects-actions-objects来绘制历史事件的关系图谱(因此动词是关系)。
要构建知识图谱,首先需要识别实体及其关系。因此,需要使用自然语言处理技术处理文本数据集。
目前,最常用于此类任务的库是SpaCy,它是一种开源软件,用于高级自然语言处理,利用Cython(C+Python)进行加速。SpaCy使用预训练的语言模型对文本进行标记化,并将其转换为“文档”对象,该对象包含模型预测的所有注释。
#python -m spacy download en_core_web_sm
nlp = spacy.load("en_core_web_sm")
doc = nlp(txt)
NLP模型的第一个输出是句子分割(中文有自己的分词规则):即确定句子的起始和结束位置的问题。通常,它是通过基于标点符号对段落进行分割来完成的。现在我们来看看SpaCy将文本分成了多少个句子:
# from text to a list of sentences
lst_docs = [sent for sent in doc.sents]
print("tot sentences:", len(lst_docs))
现在,对于每个句子,我们将提取实体及其关系。为了做到这一点,首先需要了解词性标注(POS):即用适当的语法标签标记句子中的每个单词的过程。以下是可能标记的完整列表(截至今日):
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。