赞
踩
语义向量模型是什么?
语义向量模型(Embedding Model)被广泛应用于搜索、推荐、数据挖掘等重要领域,将自然形式的数据样本(如语言、代码、图片、音视频)转化为向量(即连续的数字序列),并用向量间的“距离”衡量数据样本之间的“相关性” 。
创建一个小型的内存向量数据库DocArrayInMemorySearch并在其中插入一些文本,这些文本包括:中文句子,英文句子,数字符号等,这里我们为了在后面检验大模型给出的答案是否是由于"幻觉"而产生的。所以会往向量数据库中插入一些违背常识的文本。
from langchain.embeddings import HuggingFaceBgeEmbeddings bge_embeddings = HuggingFaceBgeEmbeddings(model_name="BAAI/bge-large-zh-v1.5") vectordb = DocArrayInMemorySearch.from_texts( ["青蛙是食草动物", "人是由恐龙进化而来的。", "熊猫喜欢吃天鹅肉。", "1+1=5", "2+2=8", "3+3=9", "Gemini Pro is a Large Language Model was made by GoogleDeepMind", "A Language model is trained by predicting the next token" ], embedding=bge_embeddings ) # #创建检索器 bge_retriever = vectordb.as_retriever(search_kwargs={"k": 1})
这里我们创建了一个内存向量数据库vectordb,并在里面创建了3句中文,3句数字符号,2句英文的文本。然后我们又创建了一个检索器bge_retriever,它可以根据问题从向量数据库中检索出与问题最相关的文档,这里我们设置了bge_retriever的参数search_kwargs={“k”: 1},这表示beg_retriever每次只检索1条最相关的文档给用户。
实验过程中不断更换embedding模型,对比不同模型的检索效果,选取最合适的模型。
https://zhuanlan.zhihu.com/p/364923722
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。