qwen2 vllm推理部署；openai接口调用、requests调用_qwen2 api调用

作者：煮酒与君饮 | 2024-07-01 14:15:27

踩

qwen2 api调用

参考：
https://qwenlm.github.io/zh/blog/qwen2/
在这里插入图片描述

max_position_embeddings：限制了模型能够处理的最大序列长度。sliding_window：在处理长序列时，限制模型关注的范围，减少计算量和内存消耗。
sliding_window 是mistral模型提出来的：

https://huggingface.co/Qwen/Qwen2-7B-Instruct/blob/main/config.json
config配置文件里也可以看到一些模型信息，包括支持上下文长度等，131072==128k，同时能输入识别长度max_position_embeddings或model_max_length=32768；对应1.5代7b只支持 “sliding_window”: 32768,==32k（https://huggingface.co/Qwen/Qwen1.5-7B-Chat/blob/main/config.json）
在这里插入图片描述

下载

https://huggingface.co/Qwen

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/煮酒与君饮/article/detail/776681