赞
踩
在本地运行大型语言模型(LLM)可以通过使用Llamafile来实现。Llamafile将模型权重和一个特别编译版本的llama.cpp捆绑成一个文件,能够在大多数电脑上运行,而且无需任何额外的依赖。Llamafile还包含了一个嵌入的推理服务器,可以通过API与模型进行交互。
要在本地设置和运行Llamafile,可以按照以下步骤操作:
# 下载一个Llamafile
wget https://huggingface.co/jartine/TinyLlama-1.1B-Chat-v1.0-GGUF/resolve/main/TinyLlama-1.1B-Chat-v1.0.Q5_K_M.llamafile
# 在Linux/MacOS上使文件可执行。在Windows上,可以通过重命名文件后缀为“.exe”来实现
chmod +x TinyLlama-1.1B-Chat-v1.0.Q5_K_M.llamafile
# 启动模型服务器,默认情况下监听http://localhost:8080
./TinyLlama-1.1B-Chat-v1.0.Q5_K_M.llamafile --server --nobrowser --embedding
以下是一个使用Llamafile Embedding的简单Demo代码示例:
# 安装需要的包 %pip install llama-index-embeddings-llamafile !pip install llama-index # 导入LlamafileEmbedding模块 from llama_index.embeddings.llamafile import LlamafileEmbedding # 初始化LlamafileEmbedding embedding = LlamafileEmbedding( base_url="http://localhost:8080", // 中转API ) # 获取文本嵌入 pass_embedding = embedding.get_text_embedding_batch( ["This is a passage!", "This is another passage"], show_progress=True ) print(len(pass_embedding), len(pass_embedding[0])) # 获取查询嵌入 query_embedding = embedding.get_query_embedding("Where is blue?") print(len(query_embedding)) print(query_embedding[:10])
权限不足错误:
Permission denied
sudo
命令或者检查文件权限。端口占用错误:
Address already in use
依赖包安装错误:
ModuleNotFoundError
pip install
命令来安装缺少的包。如果你觉得这篇文章对你有帮助,请点赞,关注我的博客,谢谢!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。