快速体验 Llama3 的 4 种方式，本地部署，800 tokens/s 的推理速度真的太快了！_llama3推理速度

作者：盐析白兔 | 2024-06-04 06:55:01

踩

llama3推理速度

北京时间4月19日凌晨，Meta在官网上官宣了Llama-3，作为继Llama1、Llama2和CodeLlama之后的第三代模型，Llama3在多个基准测试中实现了全面领先，性能优于业界同类最先进的模型，你有没有第一时间体验上呢，这篇文章就分享下如何在Groq上以超过 800 tokens/s 的魔鬼推理速度体验Llama3，会同时分享Web端、移动端、API方式以及集成到LangChain中4种体验方案。

我的新书《LangChain编程从入门到实践》已经开售！推荐正在学习AI应用开发的朋友购买阅读，此书围绕LangChain梳理了AI应用开发的范式转变，除了LangChain，还涉及其他诸如 LIamaIndex、AutoGen、AutoGPT、Semantic Kernel等热门开发框架介绍使用。

本文首发自个人博客利用 Groq 体验 Llama3 的4种方式，800 tokens/s 的推理速度真的太快了！

Groq 有多快

先看两组数据

Llama3 8B不同平台的推理速度

Llama3 70B不同平台的推理速度

Llama3 8B 每秒钟 876 tokens 的输出速度，人眼基本跟不上模型的输出速度了，要知道 Llama3 8B 的质量与 GPT-3.5 和 Llama2 70B 相似，可以显著提升一些常见的 AI 应用场景的用户体验；RAG 的性能瓶颈不再是 LLM，而是 Retrieval，什么 HyDE（假设⽂档嵌⼊，利⽤ LLMs ⽣成假设性答案，以增强⽂档检索的准确性）、LLM 重排序器（对检索到的⽂档进⾏重排序，以优先选择最相关和上下⽂适当的信息）不再是 RAG 链路速度瓶颈…

初看数据，我以为是个噱头，本着务实的态度，我自己实际体验了一把，大家自己看

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/670806