当前位置:   article > 正文

如何创建GGUF模型文件?让你在本地电脑上体验Llama2大型语言模型

moudle .bin和.gguf的区别

7648d2ac3002b62f146186ea85ef7da0.png

Llama 2 是 Meta 公司发布的最新一代开源大模型,训练数据集达2万亿 Token,上下文长度由 llama 1 的 2048 扩展到 4096,能理解和生成更长的文本,在开源大模型中各基准的测试上表现突出,最重要的是,该模型可免费用于商业用途。

关于模型量化

语言模型在各种领域都有着广泛的应用,但是也面临着一些挑战,比如模型的大小、计算量和内存占用都很大,这限制了模型在某些设备上的部署和运行。为了解决这些问题,模型量化应运而生。模型量化是一种将浮点计算转成低比特定点计算的技术,它可以有效的降低模型计算强度、参数大小和内存消耗,从而提高模型的推理速度和效率。

什么是 GGUF 文件?

它是一种新的二进制模型文件,它可以对深度学习模型进行高效的压缩,大大减少模型的大小和内存占用,从而提高模型的推理速度和效率,同时兼顾模型的推理质量。其中,一个突出的优点是可以跨平台和跨设备地加载和运行模型,无需安装任何额外的依赖库。

GGUF 有多种格式,主要区别在于浮点数的位数和量化的方式。不同的格式会影响模型的大小、性能和精度,一般来说,位数越少,量化越多,模型越小,速度越快,但是精度也越低。

例如:Q4_K_M 是一种 GGUF 模型文件的量化方式,它表示使用 4 位整数来量化模型的权重,其中 K 表示 Kernel,M 表示 Medium,意味着只有卷积核的权重被量化,而且使用中等的量化精度。

什么是 llama.cpp?

llama.cpp 是一个用 C/C++ 编写的 Llama 2 的运行时,可以在普通的笔记本电脑上运行 Llama 2 的模型,用来将模型转换并量化为 GGUF 文件,从而实现更多的功能和交互。

接下来,进入正题,这里通过 Windows 11 中的 wsl 2 来安装 Ubuntu 20.04 系统进行操作,先点个关注吧

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/81183
推荐阅读
相关标签