赞
踩
参考:
https://qwenlm.github.io/zh/blog/qwen2/
max_position_embeddings:限制了模型能够处理的最大序列长度。sliding_window:在处理长序列时,限制模型关注的范围,减少计算量和内存消耗。
sliding_window 是mistral模型提出来的:
https://huggingface.co/Qwen/Qwen2-7B-Instruct/blob/main/config.json
config配置文件里也可以看到一些模型信息,包括支持上下文长度等,131072==128k,同时能输入识别长度max_position_embeddings或model_max_length=32768;对应1.5代7b只支持 “sliding_window”: 32768,==32k(https://huggingface.co/Qwen/Qwen1.5-7B-Chat/blob/main/config.json)
https://huggingface.co/Qwen
<Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。