【通义千问】大模型Qwen GitHub开源工程学习笔记（4）-- 模型的量化与离线部署_大模型量化int4

作者：羊村懒王 | 2024-04-26 09:10:21

踩

大模型量化int4

摘要：

量化方案基于AutoGPTQ，提供了Int4量化模型，其中包括Qwen-7B-Chat和Qwen-14B-Chat。更新承诺在模型评估效果几乎没有损失的情况下，降低存储要求并提高推理速度。量化是指将模型权重和激活的精度降低以节省存储空间并提高推理速度的过程。AutoGPTQ是一种专有量化工具。Int4是指4位整数量化，与传统的8位量化相比，可以进一步减少存储要求。

如何使用Int4量化模型

在开始使用前，请先保证满足要求（如torch 2.0及以上，transformers版本为4.32.0及以上，等等），并安装所需安装包：

pip install auto-gptq optimum

【Auto-GPT 】

AutoGPTQ将能够作为一个可扩展、灵活的量化后端，支持所有类似GPTQ的方法，并自动量化由Pytorch编写的LLM。说白了就是让模型能够轻量化。

┏ (゜ω゜)=

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/490126