Llama深入浅出

作者：菜鸟追梦旅行 | 2024-02-22 20:19:15

踩

`use_cache=true` is incompatible with gradient checkpointing. setting `use_c

前方干货预警：这可能是你能够找到的最容易懂的最具实操性的学习开源LLM模型源码的教程。

本例从零开始基于transformers库逐模块搭建和解读Llama模型源码(中文可以翻译成羊驼)。

并且训练它来实现一个有趣的实例：两数之和。

输入输出类似如下：

输入："12345+54321="

输出："66666"

我们把这个任务当做一个文本生成任务来进行。输入是一个序列的上半部分，输出其下半部分.

这和文本生成的输入输出结构是类似的，所以可以用Llama来做。

目前大部分开源LLM模型都是基于transformers库来做的，它们的结构大部分都和Llama大同小异。

俗话说，魔鬼隐藏在细节中，深入理解Llama模型的的源码细节，将会帮助你打通和开源LLM模型相关的基础原理(如旋转位置编码以及长度外推)，并让你熟悉各种参数的配置和使用(如past_key_value，attention_mask的使用等等)。