赞
踩
Mistral-7B 和 Phi-2 用于试验跨库最快的推理/生成速度。
在 NLP 部署方面,推理速度是一个关键因素,尤其是对于那些支持 LLM 的应用程序。随着 Apple M1 芯片等移动架构数量的不断增加,评估法学硕士在这些平台上的性能至关重要。在本文中,我比较了三个流行的 LLM 库 - MLX、Llama.cpp和Hugging Face 的Candle Rust在Apple M1 芯片上的推理/生成速度。旨在帮助开发人员完成任务,他们必须考虑性能、实施的便利性以及与可用工具和框架的兼容性,选择最合适的库在本地计算机上部署 LLM。为了测试推理速度,我使用了两个高级的LLM模型;Microsoft 的 Mistral-7B 和 Phi-2。根据结果,我们为想要提高 LLM 性能的开发人员提供了一些建议,特别是针对 Apple M1 芯片的性能
我不会深入讨论安装过程的细节,但每个库的起点已在下面讨论。
骆驼.cpp
主要目标llama.cpp是在 MacBook 上使用 4 位整数量化运行 LLaMA 模型。该库支持除 Llama 之外的多种模型。以下是开始使用Llama.cpp的步骤
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
您可以根据您的要求选择多种构建方法(
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。