赞
踩
大约在撰写本文的前一周,Meta发布了新的开放式 Llama-3 模型。正如 Meta 所声称的那样,这些是“当今 8B 和 70B 参数尺度上现有的最佳模型”。例如,根据HuggingFace 模型页面,在 MMLU(大规模多任务语言理解)基准测试中,Llama-3 8B 得分为 66.6,而 Llama-2 7B 得分为 45.7。 Llama-3 在 CommonSense QA(常识问答数据集)中也获得了 72.6 比 57.6 的分数。经过指令调整的 Llama-3 8B 模型获得了 30.0 分,而数学基准测试的得分为 3.8,这确实是一个令人印象深刻的进步。
学术基准很重要,但我们能看到“行动中”的真正差异吗?显然,我们可以,而且很有趣。让我们在两个模型之间编写一个井字游戏,看看哪一个获胜!比赛过程中我会测试所有7B、8B、70B的型号。同时,我还将收集一些有关模型性能和系统要求的数据。所有测试都可以在 Google Colab 中免费运行。
让我们开始吧!
为了测试所有模型,我将使用Llama-cpp Python 库,因为它可以在 CPU 和 GPU 上运行。我们需要并行运行两个法学硕士。 7B和8B模型都可以轻松地在免费的16GB Google Colab GPU实例上运行,但70B模型只能使用CPU进行测试;即使是 NVIDIA A100 也没有足够的 RAM 来同时运行两个模型。
首先,我们安装 Llama-cpp 并下载 7B 和 8B 模型(对于 70B 模型,过程是相同的;我们只需要更改 URL):
!CMAKE_ARGS="-DLLAMA_CUBL
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。