大模型综述

作者：2023面试高手 | 2024-04-14 14:03:13

踩

大模型综述

1.概念

大模型是指人工智能预训练大模型，具有海量参数和复杂架构，用于深度学习任务的模型，拥有强大的处理能力和表征能力，以数据+算力为支撑，借助数据管理、模型训练、评估优化、服务平台、插件等辅助工具，开发基础大模型或行业大模型，再延伸至工业、金融、医疗、交通等下游场景应用。

2.发展

分为三个阶段：

• 萌芽期 （ 1950-2005 ）： CNN 为代表的传统神经网络模型

• 沉淀期 （ 2006-2019 ）： Google 提出的基于自注意力机制的神经网络结构 - Transformer 架构

• 爆发期 （ 2020- 至今）：

• GPT3 （ 2020 ）： 1750 亿参数规模

• ChatGPT （ 2022.11 ）：自然语言交互与多场景内容生成

• GPT-4 （ 2023.4 ）：多模态理解与多类型内容生成

3.GPT系列

GPT由OpenAI开发的一系列基于人工神经网络的自然语言处理模型，提出“生成式预训练（无监督）+判别式任务精调（有监督）”的范式来处理NLP任务。

模型由开源向闭源发展，构建技术壁垒。

4.LLaMa系列

• Chinese- LLaMA -Alpaca （中文 LLaMA-2 基座模型和 Alpaca-2 指令精调大模型） ：在原版 Llama-2 的基础上 扩充、优化了中文词表 ，使用了大规模中文数据进行增量预训练，进一步提升了中文基础语义和指令理解能力，最高支持 64K 上下文长度。

5.GLM系列

GLM是清华与智谱AI共同研制的一个开放的双语（英汉）双向密集预训练语言大模型，基于Transformer架构构建，具有强大的自然语言处理能力，能够实现对文本的理解、生成和生成式理解，被誉为“自然语言处理领域的黑科技”。

6.其它模型

Falcon：阿联酋阿布扎比的技术创新研究所（TII）开发，包含：Falcon-7B 、Falcon-40B和Falcon-180B，分别基于 1.5 万亿、 1 万亿、3.5 万亿 token数据训练而得，Falcon-180B是最大的开源预训练模型。
Vicuna：UC伯克利大学的研究人员联合其它几家研究机构共同推出的基于LLaMA微调的大语言模型， Vicuna 1.5系列包含Vicuna 7B、Vicuna 13B以及Vicuna 7B 16K和Vicuna 13B ，基于LLaMA2微调的，支持免费商用。

盘古：华为开发的一系列大规模自回归中文预训练语言模型，盘古3.0提供10B参数、38B参数、71B参数和 100B参数的基础大模型，提供NLP 大模型的知识问答、文案生成、代码生成，以及多模态大模型的图像生成、图像理解等能力。

文心一言：百度发布的人工智能大语言模型，文心大模型4.0拥有万亿级别参数，是国内首次用万卡集群训练的大预言模型，在语言理解和生成方面性能更优，具备更强的推理和创造能力，支持多语言处理，可以轻松应对不同国家和地区的语言需求。

星火认知大模型：科大讯飞发布的大预言模型，星火大模型V3.0版本，进一步升级了数学自动提炼规律、小样本学习、代码项目级理解能力、多模态指令跟随与细节表达等能力，进一步提升星火的落地应用能力。

百度-文心一言：是百度全新一代知识增强大语言模型，能够与人对话互动、回答问题、协助创作，高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习，得到预训练大模型，在此基础上采用有监督精调、人类反馈强化学习、提示等技术，具备知识增强、检索增强和对话增强的技术优势。

科大讯飞-星火认知大模型：具有7大核心能力，即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/422459