开源模型应用落地-模型量化-Qwen1.5-7B-Chat-GPTQ-Int8（一）

作者：菜鸟追梦旅行 | 2024-06-09 02:44:21

踩

qwen1.5-7b-chat-gptq

一、前言

在开源模型百花齐放的时代，每个人都想动手尝试，但是由于模型规模的较大和设备资源的不足，很多人只能望而却步。不过，通过模型量化技术，我们可以大大降低模型的存储需求和计算复杂度，从而提高在这些设备上的效率和性能。这样一来，就能够以较低的成本体验大语言模型的魅力了。

非量化方式调用：开源模型应用落地-qwen模型小试-调用qwen1.5新模型-进阶篇（六）_qwen2-CSDN博客

二、术语介绍

2.1. 量化（Quantization）

专注于用较少的信息表示数据，同时尽量不损失太多准确性。它可以帮助我们在数据表示中找到一个平衡点，以便在减少存储和处理成本的同时，尽量保持数据的准确性。

2.2. 模型量化（Model Quantization）

是指将深度学习模型中的浮点参数转换为定点数或低比特位数的表示形式的过程。通常情况下，深度学习模型中的参数以浮点数的形式存储，但是这种表示方式要求较大的内存和计算资源。在某些场景下，如移动设备、边缘计算或嵌入式系统等资源受限的环境中，模型量化可以显著减少模型的存储需求和计算复杂度，从而提高模型在这些设备上的效率和性能。

模型量化的主要目的：<

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/692252