赞
踩
1.大模型的概念和应用
1.1 大语言模型(Large language Model),指包含数百亿(或更多)参数的语言模型,这些模型在大量文本上进行训练
1.2LLM的应用和影响
(1).自然语言处理、信息检索、计算机视觉
(2).LLM使得通用人工智能(AGI)成为可能,像人类一样思考和学习的人工智能
1.1 涌现能力(emergent abilities)
量变引起质变,模型性能随着规模增大而迅速提升,具体体现为:
(1)上下文学习:理解上下文的 prompt,生成相应输出,来执行任务,无需额外训练或参数更新
(2)指令遵循:LLM能根据任务指令执行任务,无需事先见过具体实例,具有强大的泛化能力
(3)逐步推理:LLM通过“思维链”推理策略,利用包含中间推理步骤的机制解决数学问题等
1.2 作为基座模型支持多元应用的能力
基座模型(foundation model)借助海量无标注数据的训练,获得可以适用于大量下游任务的大模型,
这样多个应用可以只依赖一个或少数几个大模型进行统一建设。
1.3 支持对话作为统一入口的能力
以对话的形式让llm完成具体的工作
规模巨大、预训练和微调、上下文感知、多语言支持
多模态支持、涌现能力、多领域应用
1.GPT系列(Generative Pre_Training)是典型的生成式预训练语言模型之一,基本原则是:通过语言建模将世界知识压缩到仅解码器的Transformer模型中,从而恢复世界知识的语义,并充当任务求解器
(1)训练能够准确预测下一个单词的仅解码器的transformer语言模型
(2)扩展语言模型的大小
GPT3.5拥有1750亿个参数,GPT4约包含1.8万亿个参数,GPT4的规模是GPT3.5的10倍以上
2.Claude系列目前包含Claude和Claude Instant两种模型,两个模型上下窗口都是9000个token(约5000个单词),最早的Ckaude目前已经
至Claude-2版本,训练参数大概是860.1亿个参数。Claude最高支持100K词元的上下文,Claude-2最高支持200K词元,
Claude 经过训练,可以生成最多4000个token的连贯文档,大约3000个单词
3.PaLM系列,由Google开发,训练数据集总量达到780B个字符,内容覆盖多个预料,前PaLM共有8B、62B、540B三个不同参数量的模型版本。PaLM具有多种版本,Med_PaLM是PaLM 540B在医疗数据上进行了微调后的版本。PaLM是PaLM的多模态版本,实现控制机器人完成简单任务。PaLM2ca'sca's
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。