当前位置:   article > 正文

LLM模型从入门到精通:一文盘点市面上LLM资源_llm入门

llm入门

LLM(Large Language Model, 大型语言模型)是指那些规模庞大、参数数量众多的深度神经网络模型,用于理解和生成自然语言文本。在自然语言处理(NLP)领域有着广泛的应用,因其强大的语言理解和生成能力,能够处理各种复杂的文本任务,包括但不限于翻译、问答、文本摘要、对话、文本分类、情感分析、代码生成、创作辅助等。其主要功能和特点如下:

「架构特点:」

LLM主要基于Transformer架构,该架构由Vaswani等人在2017年的论文《Attention is All You Need》中提出。Transformer通过自注意力机制(Self-Attention)来捕捉文本中的长距离依赖关系,无需像循环神经网络(RNN)那样逐词递归处理,从而实现了并行计算,大大提高了训练和推理速度。典型的LLM结构包括:

  • Encoder-Decoder结构:如用于机器翻译的模型。Encoder将输入文本编码成一个固定长度的上下文向量,Decoder 则依据该上下文向量生成目标语言的文本输出。

  • Encoder-only结构:如BERT等。主要用于文本理解任务,如文本分类、命名实体识别、问答系统中的问题理解等。Encoder-only模型通过双向编码整个输入文本,生成具有上下文信息的隐藏状态,这些隐藏状态可以被后续任务特定的层(如分类层、标记层等)利用来进行预测。

  • Decoder-only结构:如GPT系列模型,用于生成文本、补全句子、撰写文章等任务。这类模型直接根据给定的提示(prompt)或前文上下文生成连续的文本输出。

「参数规模」

LLM的“大型”体现在其巨大的参数量,通常在数十亿到数千亿之间。例如,GPT-3(Generative Pretrained Transformer 3)拥有约1750亿个参数,而更近期的模型如 GPT-4、PaLM、Chinchilla、阿里云的通义千问等,参数量可能更大。大规模参数使得模型能够学习到更丰富的语言规律和模式,提高其泛化能力和表达复杂语言结构的能力。

「预训练与微调」

LLM通常遵循“预训练-微调”的范式:

  • 预训练:模型首先在大规模无标注文本数据(如互联网抓取的文本、书籍、百科等)上进行自我监督学习,通过自回归语言建模任务(预测下一个词的概率)或掩码语言建模任务(预测被遮蔽词语的概率)来学习语言的通用表示。

  • 微调:预训练后的模型可以针对特定任务进行微调,即在特定领域的有标注数据上进一步训练,调整模型参数以适应特定任务的需求,如问答系统的回答生成、文本分类任务的标签预测等。

「应用场景」

LLM在实际中主要应用在以下场景:

  • 生成文本:创作诗歌、故事、新闻文章、代码片段等。

  • 理解与问答:解答各类问题,提供精准的信息检索和知识解析能力。

  • 对话交互:进行自然、流畅的人机对话,模拟人类对话风格,用于客户服务、虚拟助手、教育辅导等领域。

  • 文本翻译:实现高质量的跨语言翻译,无需显式对齐的平行语料。

  • 文本摘要:自动生成文本摘要,提炼关键信息。

  • 代码生成:根据自然语言描述编写或补全代码,助力编程和软件开发。

笔者在这里对目前的开源大模型LLM进行了一个全面、系统的整理,与大家分享~

国外开源模型

模型链接模型描述
OpenSora高效复现类Sora视频生成的完全开源方案
GROK3140亿参数的混合专家模型,迄今参数量最大的开源LLM
Gemma谷歌商场开源模型2B,7B免费商用,开源第一易主了
MixtralMistral AI的突破性大模型,超越GPT3.5,重新定义人工智能性能和多样性
Mistral7B“欧洲OpenAI”的“最强7B开源模型”,全面超越13B的Llama2
LLama2Open Meta带着可商用开源的羊驼2模型来了~
LLamaMeta开源指令微调LLM,规模70亿到650亿不等
WizardLM微软新发布13B,登顶AlpacaEval开源模型Top3,使用ChatGPT对指令进行复杂度进化微调LLama2
Falcon阿联酋技术研究所推出,3.5万亿token训练,性能直接碾压LLaMA2
VicunaAlpaca前成员等开源以LLama13B为基础使用ShareGPT指令微调的模型,提出了用GPT4来评测模型效果
OpenChat80k ShareGPT对话微调LLama-2 13B开源模型中的战斗机
GuanacoLLama 7B基座,在alpaca52K数据上加入534K多语言指令数据微调
MPTMosaicML开源的预训练+指令微调的新模型,可商用,支持84k tokens超长输入
RedPajamaRedPajama项目既开源预训练数据后开源3B,7B的预训练+指令微调模型
koala使用alpaca、HC3等开源指令集+ShareGPT等ChatGPT数据微调llama,在榜单上排名较高
ChatLLaMA基于RLHF微调了LLaMA
Alpaca斯坦福开源的使用52k数据在7B的LLaMA上微调得到
Alpaca-loraLORA微调的LLaMA
DromedaryIBM self-aligned model with the LLaMA base
ColossalChatHPC-AI Tech开源的Llama+RLHF微调
MiniGPT4Vicuna+BLIP2 文本视觉融合
StackLLamaLLama使用Stackexchange数据+SFT+RL
CerebrasCerebras开源了1亿到130亿的7个模型,从预训练数据到参数全开源
Dolly-v2可商用7b指令微调开源模型在GPT-J-6B上微调
OpenChatKitopenai研究员打造GPT-NoX-20B微调+6B审核模型过滤
MetaLM微软开源的大规模自监督预训练模型
Amazon Titan亚马逊在aws上增加自家大模型
OPT-IMLMeta复刻GPT3,up to 175B, 不过效果并不及GPT3
BloomBigScience出品,规模最大176B
BloomZBigScience出品, 基于Bloom微调
Galacia和Bloom相似,更针对科研领域训练的模型
T0BigScience出品,3B~11B的在T5进行指令微调的模型
EXLLamaPython/C++/CUDA implementation of Llama for use with 4-bit GPTQ weight
LongChatllama-13b使用condensing rotary embedding technique微调的长文本模型
MPT-30BMosaicML开源的在8Ktoken上训练的大模型

国内开源模型

模型链接模型描述
BayLing中科院开源,性能媲美GPT-3.5,基于LLama7B/13B,增强的语言对齐的英语/中文大语言模型
GLM清华发布的中英双语双向密集模型,具有1300亿个参数,使用通用语言模型(GLM)算法进行预训练。它旨在支持在单台 A100(40G * 8)或V100(32G * 8)服务器上支持 130B 参数的推理任务。
XWin-LM一款基于Llama2微调的语言模型,成功在斯坦福AlpacaEval上击败了GPT-4,成为新的榜首模型
XVERSE元象科技自主研发的支持多语言的大语言模型(Large Language Model),参数规模为650亿,底座模型 XVERSE-65B
XVERSE-256K最大支持 256K 的上下文窗口长度,约 25w 字的输入内容,可以协助进行文献总结、报告分析等任务
ChatGLM3智谱AI训练的第三代大型语言模型,它不仅能理解和生成人类语言,还能执行代码、调用工具,并以markdown格式进行响应
ChatGLM2具备强大的问答和对话功能,拥有最大32K上下文,并且在授权后可免费商用!
ChatGLM清华开源的、支持中英双语的对话语言模型,使用了代码训练,指令微调和RLHF
Orion-14B-Base具有140亿参数的多语种大模型,该模型在一个包含2.5万亿token的多样化数据集上进行了训练,涵盖了中文、英语、日语、韩语等多种语言。
Baichuan2百川第二代也出第二个版本了,提供了7B/13B Base和chat的版本
Baichuan百川智能开源7B大模型可商用免费
ziya2基于Llama2训练的ziya2它终于训练完了
ziyaIDEA研究院在7B/13B llama上继续预训练+SFT+RM+PPO+HFTT+COHFT+RBRS
Qwen1.5-MoE-A2.7BQwen推出MOE版本,推理更快
Qwen1.5通义千问升级1.5,支持32K上文
Qwen1-7B+14B+70B阿里开源,可商用,通义千问7B,14B,70B Base和chat模型
InternLM2 7B+20B商汤的书生模型2支持200K
Yuan-2.0浪潮发布Yuan2.0 2B,51B,102B
YI-200K元一智能开源超长200K的6B,34B模型
YI元一智能开源34B,6B模型
DeepSeek-MOE深度求索发布的DeepSeekMoE 16B Base和caht模型
DeepSeek深度求索发布的7B,67B大模型
LLama2-chinese没等太久中文预训练微调后的llama2它来了~
YuLan-chat2高瓴人工智能基于Llama-2中英双语继续预训练+指令微调/对话微调
BlueLMVivo人工智能实验室开源大模型
zephyr-7BHuggingFace 团队基于 UltraChat 和 UltraFeedback 训练了 Zephyr-7B 模型
Skywork昆仑万维集团·天工团队开源13B大模型可商用
Chinese-LLaMA-Alpaca哈工大中文指令微调的LLaMA
Moss为复旦正名!开源了预训练,指令微调的全部数据和模型。可商用
InternLM书生浦语在过万亿 token 数据上训练的多语千亿参数基座模型
Aquila2智源更新Aquila2模型系列包括全新34B
Aquila智源开源7B大模型可商用免费
UltraLM系列面壁智能开源UltraLM13B,奖励模型UltraRM,和批评模型UltraCM
PandaLLMLLAMA2上中文wiki继续预训练+COIG指令微调
XVERSE据说中文超越llama2的元象开源模型13B模型
BiLLaLLama词表·扩充预训练+预训练和任务1比1混合SFT+指令样本SFT三阶段训练
Phoenix港中文开源凤凰和奇美拉LLM,Bloom基座,40+语言支持
Wombat-7B达摩院开源无需强化学习使用RRHF对齐的语言模型, alpaca基座
TigerBot虎博开源了7B 180B的模型以及预训练和微调语料
Luotuo-Chinese-LLM冷子昂@商汤科技, 陈启源@华中师范大学以及李鲁鲁@商汤科技发起的中文大语言模型开源项目,包含了一系列大语言模型、数据、管线和应用
OpenBuddyLlama 多语言对话微调模型
Chinese VincunaLLama 7B基座,使用Belle+Guanaco数据训练
LinlyLlama 7B基座,使用belle+guanaco+pclue+firefly+CSL+newscommentary等7个指令微调数据集训练
Firefly中文2.6B模型,提升模型中文写作,古文能力,待开源全部训练代码,当前只有模型
Baize使用100k self-chat对话数据微调的LLama
BELLE使用ChatGPT生成数据对开源模型进行中文优化
Chatyuanchatgpt出来后最早的国内开源对话模型,T5架构是下面PromptCLUE的衍生模型
PromptCLUE多任务Prompt语言模型
PLUG阿里达摩院发布超大规模语言模型PLUG,上能写诗词歌赋、下能对答如流
CPM2.0智源发布CPM2.0

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

img

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

img

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/873666
推荐阅读
相关标签
  

闽ICP备14008679号