赞
踩
在这篇文章中,我们将手动构建一个语义相似性搜索引擎,该引擎将单个论文作为“查询”输入,并查找Top-K的最类似论文。主要包括以下内容:
1.搭建milvus矢量数据库
2.使用MILVUS矢量数据库搭建语义相似性搜索引擎
3.从Kaggle下载ARXIV数据,使用dask将数据加载到Python中,并构建一个论文搜索引擎
1. 搭建milvus矢量数据库
milvus数据库的安装比较简单,可以直接使用docker安装,建议安装2.1.x以上版本,功能更丰富,其分为标准版和集群版本,这里只安装标准版本。
① docker 在线安装:
https://milvus.io/docs/v2.1.x/install_standalone-docker.md
② docker 离线安装:若服务器存在网络限制,可使用离线安装策略,官方文档如下:
https://milvus.io/docs/v2.1.x/install_offline-docker.md
这里展示我自己参考官方离线安装文档,但有些不同的的安装方式,即自己手动下载容器,在手动上传至服务器:
(1)首先在这里下载docker-compose.yml,查看需要的容器:
主要包括以下三个:
image: quay.io/coreos/etcd:v3.5.0
image: minio/minio:RELEASE.2022-03-17T06-34-49Z
image: milvusdb/milvus:v2.1.1
(2)在docker hub找到需要下载的容器:
(3)复制pull命令到如下网址进行在线下载,并打包成tar:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。