当前位置:   article > 正文

大模型和Langchain

大模型和Langchain

语言模型和Langchain

标题

1.大模型的概念和应用

1.1 大语言模型(Large language Model),指包含数百亿(或更多)参数的语言模型,这些模型在大量文本上进行训练

1.2LLM的应用和影响

     (1).自然语言处理、信息检索、计算机视觉

     (2).LLM使得通用人工智能(AGI)成为可能,像人类一样思考和学习的人工智能
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

2.大模型的能力和特点

(一)大模型的特点

1.1 涌现能力(emergent abilities)

       量变引起质变,模型性能随着规模增大而迅速提升,具体体现为:

    (1)上下文学习:理解上下文的 prompt,生成相应输出,来执行任务,无需额外训练或参数更新

    (2)指令遵循:LLM能根据任务指令执行任务,无需事先见过具体实例,具有强大的泛化能力

    (3)逐步推理:LLM通过“思维链”推理策略,利用包含中间推理步骤的机制解决数学问题等

1.2 作为基座模型支持多元应用的能力

      基座模型(foundation model)借助海量无标注数据的训练,获得可以适用于大量下游任务的大模型,
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

这样多个应用可以只依赖一个或少数几个大模型进行统一建设。

1.3 支持对话作为统一入口的能力

       以对话的形式让llm完成具体的工作
  • 1
  • 2
  • 3

(二)大模型的特点

规模巨大、预训练和微调、上下文感知、多语言支持

多模态支持、涌现能力、多领域应用
  • 1
  • 2
  • 3

3.常见的大模型

(一)闭源大模型

 1.GPT系列(Generative Pre_Training)是典型的生成式预训练语言模型之一,基本原则是:通过语言建模将世界知识压缩到仅解码器的Transformer模型中,从而恢复世界知识的语义,并充当任务求解器
  • 1

(1)训练能够准确预测下一个单词的仅解码器的transformer语言模型

(2)扩展语言模型的大小

GPT3.5拥有1750亿个参数,GPT4约包含1.8万亿个参数,GPT4的规模是GPT3.5的10倍以上

2.Claude系列目前包含Claude和Claude Instant两种模型,两个模型上下窗口都是9000个token(约5000个单词),最早的Ckaude目前已经
  • 1
  • 2
  • 3

至Claude-2版本,训练参数大概是860.1亿个参数。Claude最高支持100K词元的上下文,Claude-2最高支持200K词元,

Claude 经过训练,可以生成最多4000个token的连贯文档,大约3000个单词

3.PaLM系列,由Google开发,训练数据集总量达到780B个字符,内容覆盖多个预料,前PaLM共有8B、62B、540B三个不同参数量的模型版本。PaLM具有多种版本,Med_PaLM是PaLM 540B在医疗数据上进行了微调后的版本。PaLM是PaLM的多模态版本,实现控制机器人完成简单任务。PaLM2ca'sca's
  • 1
  • 2
  • 3
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/573198
推荐阅读
相关标签
  

闽ICP备14008679号