赞
踩
根据企业自身情况,构建高质量数据集,格式不限,网上有多种,如果是作为智能客服使用,推荐用instruction input output这个类型数据格式。
我们使用langchain架构,所以首先import相关包文件,如下
python
复制代码
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings.sentence_transformer import (
SentenceTransformerEmbeddings,
)
from langchain.vectorstores import Chroma
本项目我们使用SentenceTransformerEmbeddings和Chroma轻量级向量数据库
加载数据集
python
复制代码
filepath = '/***' #你本地文件及地址
loader = TextLoader(filepath, encoding='utf-8')
text = loader.load()
分割数据集
python
复制代码
text_splitter = RecursiveCharacterTextSplitter(
chunk_size=100,
chunk_overlap=0,
separators=["},\n"],
length_function=len
)
split_docs = text_splitter.split_documents(text)
嵌入数据集并永久存储到本地
python
复制代码
embedding_function = SentenceTransformerEmbeddings(model_name="shibing624/text2vec-base-chinese")
vectorstore = Chroma.from_documents(split_docs, embedding_function, persist_directory="/") # 本地存储到向量数据库的地址,换成你自己的
vectorstore.persist()
python
复制代码
# 测试是否嵌入成功
query = "你是谁?" #测试问句
doc = vectorstore.similarity_search(query)
print(doc[0].page_content)
如果测试和回答没有问题,说明数据集已经成功embedding到向量数据库了,可以生成一个后缀名为.py的文件,后续数据集如果需要更新,可直接python *.py 执行即可。
这个项目代码我已经开源到GitHub上了,可以点这个链接,直接下载整个项目代码:github.com/davidhandso… 里面的Embeddings.py,就是以上的代码
接下来,第三集:自定义LLM大模型类的构建
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料
包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。