自主部署和运行大语言模型Llama3的5种方法_llama3部署

作者：我家小花儿 | 2024-08-01 16:10:15

踩

llama3部署

Meta 最近发布了Llama 3，这是其开源大型语言模型（LLM）的最新和最强大的版本。Llama3包括两个版本：Llama 3 8B（含80亿个参数）和 Llama 3 70B（含700亿个参数），这两个版本都有基础和指令调整变体。

与Llama 2相比，Llama 3模型降低了错误拒绝率，提供了双倍的上下文长度，具有 8K 标记上下文窗口。Llama 3 模型的训练数据比 Llama 2 多出约 8 倍，在24000个GPU卡上，使用了超过 15 万亿个token的新的公开在线数据组合。HumanEval的大模型代码能力评测对比结果中，作为开源模型的Llama3得分为81.7分，高于闭源商业模型Gemini Pro 1.5（71.9分）和Claude 3 Sonnet（73分），低于Claude 3 Opus (84.9分) 和GPT4 Turbo (85.7分)。

本文介绍5种安装和运行Llama3的方法，供参考。

使用Web浏览器部署和运行模型

该方法使用WebGPU技术在Web浏览器运行模型，不需要网络和服务器端支持。

WebLLM

这是一个使用WebGPU和WebAssembly等技术的项目，能够完全在浏览器中运行大语言模型和大语言模型应用程序。WebLLM 是一个模块化和可定制的 javascript 软件包，可直接将语言模型聊天直接带入Web浏览器，并进行硬件加速。一切都在浏览器内运行，无需服务器支持，并通过 WebGPU 加速。同时还支持在手机上运行模型。

Demo: https://mlc.ai/mlc-llm/

WebLLM技术架构

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/914884