赞
踩
23年以来,随着OpenAI公司的ChatGPT横空出世,大模型一词开始火爆全球。国内外以OpenAI、Google、百度、阿里、字节等大厂为代表,相继推出一系列大模型及其应用,涉及社交、问答、代码助手等多个方面。
目前主流的大模型及产品:
大模型究竟是什么,和基础的垂类模型/多模态模型有何差异?为什么可以基于大模型来构建一系列垂类应用,以及可以使用大模型构建什么应用?
大模型又被称为大语言模型(Large Language Model)或大规模预训练语言模型(Large Pretrained Language Model)。
对于小模型(垂类模型):每个小模型对打标数据集识别进行训练,比如专注识别猫狗图片的图片模型、并在对应的数据集上评估,给出模型产物。小模型的特点是“专注”,每一个小模型训练出来就是为了识别某类特定目标。
对于大模型来说,其需要具备大量的语料参数以及很好的理解能力,其训练分为两个阶段:
对于算法架构,LLM主要是采用了Transformer架构来增强大模型对语料的上下文理解能力,可以做到长序列理解及推理。
基础LLM具有千亿级别参数及语料,具有很好的文本理解能力,通过二阶段指令微调可以让基础LLM在特定场景下做到更准确的输出判断,目前LLM应用场景十分广泛,包括:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。