当前位置:   article > 正文

最小SOTA模型:Mistral 7B,各方面碾压LLaMA2 13B和LLaMA1 34B_ubuntu系统 加载mistral-7b-v0.1

ubuntu系统 加载mistral-7b-v0.1

深度学习自然语言处理 分享

Mistral AI团队自豪地发布了Mistral 7B,这是迄今为止尺寸最小的最强大的语言模型

进NLP群—>加入NLP交流群

Mistral 7B是一个73亿参数的模型,具有以下特点:

我们以Apache 2.0许可证发布Mistral 7B,可以无限制地使用。

Mistral 7B易于在任何任务上进行微调。作为演示,我们提供了一个针对聊天进行微调的模型,其性能优于Llama 2 13B聊天模型。

我们将Mistral 7B与Llama 2系列进行了比较,并重新运行了所有模型的评估,以进行公平比较。

图片

图片

Mistral 7B和不同的Llama模型在各种基准测试上的性能。为了进行准确比较,所有模型的所有指标都经过我们的评估流程重新评估。Mistral 7B在所有指标上明显优于Llama 2 13B,并与Llama 34B相当(由于Llama 2 34B未发布,我们报告了Llama 34B的结果)。在代码和推理基准测试方面,它也远远超越了其他模型。

这些基准测试按主题分类如下:

图片

图片

一个有趣的指标,用于比较模型在成本/性能平面上的表现,是计算“等效模型大小”。在推理、理解和STEM推理(MMLU)方面,Mistral 7B的性能相当于比它大3倍多的Llama 2。这意味着在内存节省和吞吐量增加方面获得了相当大的优势。

图片

图片

Mistral 7B和Llama 2(7B/13/70B)在MMLU、常识推理、世界知识和阅读理解方面的结果。Mistral 7B在所有评估中大部分都优于Llama 2 13B,只有在知识基准测试中表现相当(这可能是由于其有限的参数数量,限制了它可以压缩的知识量)。

注意:我们的评估与LLaMA2论文的评估之间存在重要差异:

Mistral 7B使用滑动窗口注意力(SWA)机制(Child等,Beltagy等),其中每个层次关注前4,096个隐藏状态。主要的改进,也是最初进行研究的原因,是计算成本线性为O(sliding_window.seq_len)。在实际应用中,对FlashAttention和xFormers所做的更改使得在序列长度为16k且窗口为4k的情况下,速度提高了2倍。非常感谢Tri Dao和Daniel Haziza在紧张的时间表上帮助包括这些更改。

滑动窗口注意力利用了Transformer的堆叠层,以便在窗口大小之外的过去进行关注:第k层的tokens i关注第k-1层的tokens [i-sliding_window, i]。这些tokens关注tokens [i-2*sliding_window, i]。较高的层次具有比注意力模式所涉及的更远过去的信息。

图片

图片

最后,固定的注意力跨度意味着我们可以将我们的缓存限制为sliding_window tokens的大小,使用旋转缓冲区(更多信息请阅读我们的参考实现存储库[5])。这在长度为8192的序列上进行推断时可以节省一半的缓存内存,而不会影响模型质量。

为了展示Mistral 7B的泛化能力,我们对其进行了微调,使用了HuggingFace上公开可用的指令数据集。没有花招,也没有专有数据。结果模型,Mistral 7B Instruct[6],在MT-Bench[7]上优于所有7B模型,并与13B聊天模型相媲美。

Mistral 7B Instruct模型是一个快速演示,它表明基础模型可以轻松进行微调,以实现引人入胜的性能。我们期待与社区合作,探讨使这些模型最终遵守监管框架的方法,以便在需要进行输出监管的环境中部署。

本文参考原文地址[8]。

reference implementation: https://github.com/mistralai/mistral-src

下载: https://files.mistral-7b-v0-1.mistral.ai/mistral-7B-v0.1.tar

inference server and skypilot: https://docs.mistral.ai/cloud-deployment/skypilot

HuggingFace: https://huggingface.co/mistralai

reference implementation repo: https://github.com/mistralai/mistral-src

Mistral 7B Instruct: https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1

MT-Bench: https://arxiv.org/abs/2306.05685

原文地址: https://mistral.ai/news/announcing-mistral-7b/

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/614969
推荐阅读
相关标签
  

闽ICP备14008679号