赞
踩
Llama 2 是 Meta 公司发布的最新一代开源大模型,训练数据集达2万亿 Token,上下文长度由 llama 1 的 2048 扩展到 4096,能理解和生成更长的文本,在开源大模型中各基准的测试上表现突出,最重要的是,该模型可免费用于商业用途。
关于模型量化
大语言模型在各种领域都有着广泛的应用,但是也面临着一些挑战,比如模型的大小、计算量和内存占用都很大,这限制了模型在某些设备上的部署和运行。为了解决这些问题,模型量化应运而生。模型量化是一种将浮点计算转成低比特定点计算的技术,它可以有效的降低模型计算强度、参数大小和内存消耗,从而提高模型的推理速度和效率。
什么是 GGUF 文件?
它是一种新的二进制模型文件,它可以对深度学习模型进行高效的压缩,大大减少模型的大小和内存占用,从而提高模型的推理速度和效率,同时兼顾模型的推理质量。其中,一个突出的优点是可以跨平台和跨设备地加载和运行模型,无需安装任何额外的依赖库。
GGUF 有多种格式,主要区别在于浮点数的位数和量化的方式。不同的格式会影响模型的大小、性能和精度,一般来说,位数越少,量化越多,模型越小,速度越快,但是精度也越低。
例如:Q4_K_M 是一种 GGUF 模型文件的量化方式,它表示使用 4 位整数来量化模型的权重,其中 K 表示 Kernel,M 表示 Medium,意味着只有卷积核的权重被量化,而且使用中等的量化精度。
什么是 llama.cpp?
llama.cpp 是一个用 C/C++ 编写的 Llama 2 的运行时,可以在普通的笔记本电脑上运行 Llama 2 的模型,用来将模型转换并量化为 GGUF 文件,从而实现更多的功能和交互。
接下来,进入正题,这里通过 Windows 11 中的 wsl 2 来安装 Ubuntu 20.04 系统进行操作,先点个关注吧
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。