赞
踩
前方干货预警:这可能是你能够找到的最容易懂的最具实操性的学习开源LLM模型源码的教程。
本例从零开始基于transformers库逐模块搭建和解读Llama模型源码(中文可以翻译成羊驼)。
并且训练它来实现一个有趣的实例:两数之和。
输入输出类似如下:
输入:"12345+54321="
输出:"66666"
我们把这个任务当做一个文本生成任务来进行。输入是一个序列的上半部分,输出其下半部分.
这和文本生成的输入输出结构是类似的,所以可以用Llama来做。
目前大部分开源LLM模型都是基于transformers库来做的,它们的结构大部分都和Llama大同小异。
俗话说,魔鬼隐藏在细节中,深入理解Llama模型的的源码细节,将会帮助你打通和开源LLM模型相关的基础原理(如旋转位置编码以及长度外推),并让你熟悉各种参数的配置和使用(如past_key_value,attention_mask的使用等等)。
本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/131297
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。