大模型和Langchain

作者：凡人多烦事01 | 2024-05-15 14:12:24

踩

大模型和Langchain

大语言模型和Langchain

标题

1.大模型的概念和应用

1.1 大语言模型（Large language Model）,指包含数百亿（或更多）参数的语言模型，这些模型在大量文本上进行训练

1.2LLM的应用和影响

     （1）.自然语言处理、信息检索、计算机视觉

     （2）.LLM使得通用人工智能（AGI）成为可能，像人类一样思考和学习的人工智能
1
2
3
4
5
6
7

2.大模型的能力和特点

（一)大模型的特点

1.1 涌现能力（emergent abilities）

       量变引起质变，模型性能随着规模增大而迅速提升，具体体现为：

    （1）上下文学习：理解上下文的 prompt,生成相应输出，来执行任务，无需额外训练或参数更新

    （2）指令遵循：LLM能根据任务指令执行任务，无需事先见过具体实例，具有强大的泛化能力

    （3）逐步推理：LLM通过“思维链”推理策略，利用包含中间推理步骤的机制解决数学问题等

1.2 作为基座模型支持多元应用的能力

      基座模型（foundation model）借助海量无标注数据的训练，获得可以适用于大量下游任务的大模型，
1
2
3
4
5
6
7
8
9
10
11
12
13

这样多个应用可以只依赖一个或少数几个大模型进行统一建设。

1.3 支持对话作为统一入口的能力

       以对话的形式让llm完成具体的工作
1
2
3

（二）大模型的特点

规模巨大、预训练和微调、上下文感知、多语言支持

多模态支持、涌现能力、多领域应用
1
2
3

3.常见的大模型

（一）闭源大模型

 1.GPT系列（Generative Pre_Training）是典型的生成式预训练语言模型之一，基本原则是：通过语言建模将世界知识压缩到仅解码器的Transformer模型中，从而恢复世界知识的语义，并充当任务求解器
1

（1）训练能够准确预测下一个单词的仅解码器的transformer语言模型

（2）扩展语言模型的大小

GPT3.5拥有1750亿个参数，GPT4约包含1.8万亿个参数，GPT4的规模是GPT3.5的10倍以上

2.Claude系列目前包含Claude和Claude Instant两种模型，两个模型上下窗口都是9000个token(约5000个单词)，最早的Ckaude目前已经
1
2
3

至Claude-2版本，训练参数大概是860.1亿个参数。Claude最高支持100K词元的上下文，Claude-2最高支持200K词元，

Claude 经过训练，可以生成最多4000个token的连贯文档，大约3000个单词

3.PaLM系列，由Google开发，训练数据集总量达到780B个字符，内容覆盖多个预料，前PaLM共有8B、62B、540B三个不同参数量的模型版本。PaLM具有多种版本，Med_PaLM是PaLM 540B在医疗数据上进行了微调后的版本。PaLM是PaLM的多模态版本，实现控制机器人完成简单任务。PaLM2ca'sca's
1
2
3

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/573198