赞
踩
向量数据库是一种专门用于存储、管理和查询高维向量数据的数据库系统。随着人工智能和机器学习的广泛应用,向量数据库在处理非结构化数据(如文本、图像、音频和视频等)的任务中变得越来越重要。本文将介绍快速使用Chroma
安装chromadb向量数据库
pip install chromadb
创建客户端
import chromadb
chroma_client = chromadb.Client()
Chroma数据结构,包括集合、文档和Embedding。
collection = chroma_client.create_collection(name="my_collection")
添加文档到集合中
collection.add(
documents=[
"This is a document about pineapple",
"This is a document about oranges"
],
ids=["id1", "id2"]
)
搜索文档并指定返回文档数
results = collection.query(
query_texts=["This is a query document about hawaii"], # Chroma will embed this for you
n_results=2 # how many results to return
)
print(results)
可以看到夏威夷和菠萝更相似。
{
'documents': [[
'This is a document about pineapple',
'This is a document about oranges'
]],
'ids': [['id1', 'id2']],
'distances': [[1.0404009819030762, 1.243080496788025]],
'uris': None,
'data': None,
'metadatas': [[None, None]],
'embeddings': None,
}
向量数据库是 RAG 中的重要组件之一,文档索引会存储在向量数据库中,随着大模型的流行,感觉向量数据库也会持续发展,进一步提高性能。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。