当前位置:   article > 正文

利用AI大模型,将任何文本语料转化为知识图谱,可本地运行!_ai非结构化文档向量化

ai非结构化文档向量化

几个月前,基于知识的问答(KBQA)还是一个新奇事物。

现在,对于任何 AI 爱好者来说,带检索增强生成(RAG)的 KBQA 就像小菜一碟。看到自然语言处理(NLP)的可能性领域由于大型语言模型(LLMs)的发展而如此迅速扩展,真是令人着迷。

而且,它每天都在变得更好。

01 摘 要

知识图谱(KG)或任何图谱由节点和边组成。知识图谱的每个节点代表一个概念,每条边是这样一对概念之间的关系。

在这篇文章中,我将分享一种将任何文本语料库转换成概念图的方法。我在这里将“概念图”(GC)一词与知识图谱这个术语交替使用,以更好地描述我在这里演示的内容。

我在这个实现中使用的所有组件都可以在本地设置,因此这个项目可以轻松地在个人机器上运行。我在这里采用了无 GPT 方法,因为我相信较小的开源模型。

我正在使用出色的 Mistral 7B Openorca instruct 和 Zephyr 模型。这些模型可以通过 Ollama 在本地设置。

(编者注:Mistral 7B 是一个基于 GPT 架构的大型语言模型,专门优化以理解和执行用户指令,适用于多种自然语言处理任务)

像 Neo4j 这样的数据库使得存储和检索图形数据变得容易。在这里,我使用内存中的 Pandas 数据框和 NetworkX Python 库,以保持简单。

我们的目标是将任何文本语料库转换成概念图(GC)并像本文的精美横幅图像一样进行可视化。我们甚至将通过移动节点和边缘、放大和缩小以及改变图的物理特性来与网络图进行交互,以满足我们的心愿。

这是 Github 页面链接,展示了我们正在构建的结果:

https://rahulnyk.github.io/knowledge_graph/

但首先,让我们深入了解知识图谱的基本概念以及我们为什么需要它们。如果你已经熟悉这个概念,请跳过下一节。

02 知识图谱

考虑以下文本:

玛丽有一只小羊羔,
你以前听说过这个故事;
但你知道她传递了她的盘子,
又多吃了一点!

(我希望孩子们没有读到这个 本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/878588?site

推荐阅读
相关标签