大语言模型量化方法对比：GPTQ、GGUF、AWQ

作者：小蓝xlanll | 2024-04-05 00:49:30

踩

gguf

在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。

说明：每次加载LLM示例后，建议清除缓存，以防止出现OutOfMemory错误。

 del model, tokenizer, pipe
 
 import torch
 torch.cuda.empty_cache()
1
2
3
4

如果在jupyter中无法释放显存，请重启这个jupyter notebook。

加载LLM的最直接、最普通的方式是通过

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/362247