当前位置:   article > 正文

Llama-2 与 Llama-3:模型之间的井字游戏之战 使用 Python 和 Llama-CPP 制定非科学基准

Llama-2 与 Llama-3:模型之间的井字游戏之战 使用 Python 和 Llama-CPP 制定非科学基准

大约在撰写本文的前一周,Meta发布了新的开放式 Llama-3 模型。正如 Meta 所声称的那样,这些是“当今 8B 和 70B 参数尺度上现有的最佳模型”。例如,根据HuggingFace 模型页面,在 MMLU(大规模多任务语言理解)基准测试中,Llama-3 8B 得分为 66.6,而 Llama-2 7B 得分为 45.7。 Llama-3 在 CommonSense QA(常识问答数据集)中也获得了 72.6 比 57.6 的分数。经过指令调整的 Llama-3 8B 模型获得了 30.0 分,而数学基准测试的得分为 3.8,这确实是一个令人印象深刻的进步。

学术基准很重要,但我们能看到“行动中”的真正差异吗?显然,我们可以,而且很有趣。让我们在两个模型之间编写一个井字游戏,看看哪一个获胜!比赛过程中我会测试所有7B、8B、70B的型号。同时,我还将收集一些有关模型性能和系统要求的数据。所有测试都可以在 Google Colab 中免费运行。

让我们开始吧!

加载模型

为了测试所有模型,我将使用Llama-cpp Python 库,因为它可以在 CPU 和 GPU 上运行。我们需要并行运行两个法学硕士。 7B和8B模型都可以轻松地在免费的16GB Google Colab GPU实例上运行,但70B模型只能使用CPU进行测试;即使是 NVIDIA A100 也没有足够的 RAM 来同时运行两个模型。

首先,我们安装 Llama-cpp 并下载 7B 和 8B 模型(对于 70B 模型,过程是相同的;我们只需要更改 URL):

!CMAKE_ARGS="-DLLAMA_CUBL
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/596312
    推荐阅读
    相关标签
      

    闽ICP备14008679号