一文讲明白初学者怎么入门大语言模型（LLM）？

作者：喵喵爱编程 | 2024-08-21 13:27:26

踩

关于如何入门LLM，大多数回答都提到了调用API、训练微调和应用。但是大模型更新迭代太快，这个月发布的大模型打榜成功，仅仅过了一个月就被其他模型超越。训练微调也已经不是难事，有大量开源的微调框架（llamafactory、firefly等），你只要懂部署，配置几个参数就能启动训练。甚至现在有大量云上项目，你根本不需要部署，直接上传数据，就能启动。

这我让想起来之前的算法工程师都被调侃成调参师，新出一个大模型，下载下来跑一遍，运行一遍AutoTokenizer.from_pretrained(model_path)，对于自己理解和入门大模型没有任何意义。

对于初学者如何入门，我的建议是从一个开源大模型入手，全面了解它的运行原理以及如何应用。可以将大模型比作一辆车，我开车无需理解车是如何做的，但是车出问题了，了解原理能够帮我们快速找到其中的问题。

为了更好入门大模型，我建议按照以下顺序学习，分为编程基础准备、大模型原理理解和大模型应用三个部分。

一、编程基础准备

1.熟练Python编程语言

我一般使用numpy用于数据处理，matplotlib用于画图分析（比如分析位置编码、注意力矩阵）,numpy很多函数与pytorch类似放后面讲，这里主要讲常用的matplotlib画图函数，学好matplotlib库有利于我们以可视化的角度去理解一些大模型原理。

plt.bar(x,y,width)

举个例子，画直方图分析llama3 8B中参数分布情况，可以发现有2个峰值，分别是embedding层和最后输出logits层，两者参数量一致。

plt.plot(x,y,width)

在这里插入图片描述

举个例子，画点图分析llama3 8B中的位置编码RoPE。在同一位置m下，可以发现向量中的元素，在i比较小的时候变化较快，i较大的时候变化较慢。

plt.colorbar(x,y)

在这里插入图片描述

举个例子，画热力图分析llama3 8B中的Attenion矩阵。我的intput为“The boy didn’t cross the street because he was too ”，要预测下一个词。观察第10行（分析注意力矩阵都是以行为单位）可以发现"he"这个toke与"boy"这个token关联度很高，而不是“street”这个token。

所以说画图很重要，深度学习本质上都是矩阵运算，单看数字看不出什么结论，需要结合画图等可视化工具分析。

2.熟悉pytorch等深度学习框架

目前主流大模型基本上都是用pytorch写的，pytorch语法太多了࿰

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】