赞
踩
安装完 cuBLAS(CUDA) 版本的 llama-cpp-python
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
跑模型,指定 n_gpu_layers=-1
出现 CUDA error
CUDA error: the provided PTX was compiled with an unsupported toolchain.
拉取 llama.cpp 最新代码到本地,编译 cuBLAS 版本的动态库
make BUILD_SHARED_LIBS=1 LLAMA_CUBLAS=1 -j libllama.so
替换 llama-cpp-python python包中的 libllama.so (lib/python3.10/site-packages/llama_cpp/)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。