当前位置:   article > 正文

使用Codestral和VS Code的continue插件实现AI辅助代码生成_continue - codestral, gpt-4o, and more怎么使用

continue - codestral, gpt-4o, and more怎么使用

准备

  • python包vllm

用来加载模型,启动服务

安装可以参数:GitHub - vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

  • 模型文件

可以使用官方:mistralai/Codestral-22B-v0.1

我是使用AQW 4bit量化 solidrust/Codestral-22B-v0.1-hf-AWQ

也可以选择GPTQ 4bit量化,可以看看vllm支持哪个格式

如果是比较旧的显卡可能不支持量化版本模型

  • vs code 的continue插件

配置

使用vllm加载Codestral启动兼容OpenAI 接口服务

启动命令:

  1. python -m vllm.entrypoints.openai.api_server \
  2. --model /data/models/Codestral-22B-v0.1-hf-AWQ \
  3. --served-model-name codestral \
  4. --host 0.0.0.0 \
  5. --port 9000 \
  6. --quantization awq

如果显存不够可以考虑:

1. 多卡,使用参数 --tensor-parallel-size 

2. 减少模型上下文长度: 使用参数 --max-model-len

配置vs code 的continue插件

修改了红色框1和2的部分

注意apiBase的ip是部署模型的服务器ip,model和端口号要跟vllm启动命令一致。

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号