当前位置:   article > 正文

qwen2 vllm推理部署;openai接口调用、requests调用_qwen2 api调用

qwen2 api调用

参考:
https://qwenlm.github.io/zh/blog/qwen2/
在这里插入图片描述

max_position_embeddings:限制了模型能够处理的最大序列长度。sliding_window:在处理长序列时,限制模型关注的范围,减少计算量和内存消耗。
sliding_window 是mistral模型提出来的:在这里插入图片描述

https://huggingface.co/Qwen/Qwen2-7B-Instruct/blob/main/config.json
config配置文件里也可以看到一些模型信息,包括支持上下文长度等,131072==128k,同时能输入识别长度max_position_embeddings或model_max_length=32768;对应1.5代7b只支持 “sliding_window”: 32768,==32k(https://huggingface.co/Qwen/Qwen1.5-7B-Chat/blob/main/config.json)
在这里插入图片描述

下载

https://huggingface.co/Qwen

<
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/776681
推荐阅读
相关标签
  

闽ICP备14008679号