赞
踩
20世纪90年代
统计学习方法
通过前面的词汇来预测下一个词汇。在理解复杂语言规则方面存在一定局限性。
2003年
神经网络模型 by Bengio
首次将深度学习的思想融入到语言模型中,为计算机提供了更强大的"大脑"来理解语言。模型可以更好地捕捉语言中的复杂关系。
2018年左右
神经网络模型 by Transformer
通过大量文本数据训练模型,使它们能够深入理解语言规则和模式,就像让计算机阅读整个互联网一样。模型对语言有了更深刻的理解。
随着语言模型规模的扩大(增加模型大小或使用更多数据),模型展现出了一些惊人的能力,通常在各种任务中表现显著提升。这时我们进入了大语言模型(LLM)时代。
大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。通常,LLM指 包含数百亿(或更多)参数的语言模型。
模型在解决复杂任务时表现出了惊人的潜力,这被称为 “ 涌现能力 ” 。
以 GPT-3 和 GPT-2 为例,GPT-3 可以通过学习上下文来解决少样本任务,而 GPT-2 在这方面表现较差。因此,研究界给这些庞大的语言模型起了个名字,称之为 “ 大语言模型(LLM)” 。
而 LLM 的一个杰出应用就是 ChatGPT ,它是 GPT 系列 LLM 用于与人类对话式应用的大胆尝试,展现出了非常流畅和自然的表现。
自然语言处理 帮助计算机更好地理解和生成文本,包括写文章、回答问题、翻译语言等
信息检索 改进搜索引擎,让我们更轻松地找到所需的信息
计算机视觉 理解图像和文字,改善多媒体交互
通用人工智能(AGI) 一种像人类一样思考和学习的人工智能
LLM 被认为是 AGI 的一种早期形式,它提供了AGI产生的可能性,这引发了对未来人工智能发展的许多思考和计划。
涌现能力指的是一种与某些复杂任务相关的能力。它在小型模型中不明显,但在大型模型中显著出现,是区分大语言模型(LLM)与以前的预训练语言模型(PLM)最显著的特征之一。
它的显现就是模型性能随着规模增大而迅速提升,超过了随机水平,也就是量变引起质变。它具备三个典型的通用能力(应用于解决各种任务的能力):
上下文学习:上下文学习能力是由 GPT-3 首次引入的。这种能力允许语言模型在提供自然语言指令或多个任务示例的情况下,通过理解上下文并生成相应输出的方式来执行任务,而无需额外的训练或参数更新。
指令遵循:通过使用自然语言描述的多任务数据进行微调,也就是所谓的 指令微调
,LLM 被证明在同样使用指令形式化描述的未见过的任务上表现良好。这意味着LLM能够根据任务指令执行任务,而无需事先见过具体示例,这展示了其强大的泛化能力。
逐步推理:小型语言模型通常难以解决涉及多个推理步骤的复杂任务,例如数学问题。然而,LLM通过采用 思维链
推理策略,可以利用包含中间推理步骤的提示机制来解决这些任务,从而得出最终答案。据推测,这种能力可能是通过对代码的训练获得的。
2021 基座模型(foundation model)
一种全新的 AI 技术范式,借助于海量无标注数据的训练,获得可以适用于大量下游任务的大模型(单模态或者多模态),从而实现多个应用只依赖于一个或少数几个大模型进行统一建设,即多元应用。
其典型例子就是大语言模型。相比于分散的模型开发方式,使用统一的大模型不仅可以极大地提高研发效率,缩短每个具体应用的开发周期,减少所需人力投入,也可以基于大模型的推理、常识和写作能力,获得更好的应用效果。
因此,大模型可以成为 AI 应用开发的大一统基座模型,这是一个一举多得、全新的范式,值得大力推广。
互联网用户偏好雨聊天和对话这种交互模式,虽然之前的聊天机器人存在各种问题,但大型语言模型的出现再次让聊天机器人这种交互模式可以重新想像。这引发我们对于智能体(Agent)
类型应用前景的思考。
规模巨大: LLM 通常具有巨大的参数规模,可以达到数十亿甚至数千亿个参数。这使得它们能够捕捉更多的语言知识和复杂的语法结构。
预训练和微调: LLM 采用了预训练和微调的学习方法。它们首先在大规模文本数据上进行预训练(无标签数据),学会了通用的语言表示和知识,然后通过微调(有标签数据)适应特定任务,从而在各种 NLP 任务中表现出色。
上下文感知: LLM 在处理文本时具有强大的上下文感知能力,能够理解和生成依赖于前文的文本内容。这使得它们在对话、文章生成和情境理解方面表现出色。
多语言支持: LLM 可以用于多种语言,不仅限于英语。它们的多语言能力使得跨文化和跨语言的应用变得更加容易。
多模态支持: 一些 LLM 已经扩展到支持多模态数据,包括文本、图像和声音。这意味着它们可以理解和生成不同媒体类型的内容,实现更多样化的应用。
涌现能力: LLM 表现出令人惊讶的涌现能力,即在大规模模型中出现但在小型模型中不明显的性能提升。这使得它们能够处理更复杂的任务和问题。
多领域应用: LLM 已经被广泛应用于文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手等多个领域,对人们的日常生活和工作产生了深远的影响。
伦理和风险问题: 尽管 LLM 具有出色的能力,但它们也引发了伦理和风险问题,包括生成有害内容、隐私问题、认知偏差等。因此,研究和应用 LLM 需要谨慎。
OpenAI 公司在 2018 年提出的 GPT(Generative Pre-Training)模型是典型的 生成式预训练语言模型
之一。
它的基本原则是通过语言建模将世界知识压缩到仅解码器的 Transformer 模型中,从而恢复(或记忆)世界知识的语义,并充当通用任务求解器。它有两个关键点:
总体而言,OpenAI 在 LLM 上的研究大致可以分为以下几个阶段:
OpenAI 在 2022 年 11 月 发布的基于 GPT 模型(GPT-3.5 和 GPT-4)开发的 会话应用 ChatGPT 具有特别优化的会话能力。
它支持最长达 32,000 个字符,知识截止日期是 2021 年 9 月,可以执行包括代码编写、数学问题求解、写作建议等各种任务。
ChatGPT 在与人类交流方面表现出了卓越的能力:拥有丰富的知识储备,对数学问题进行推理的技能,在多回合对话中准确追踪上下文,并且与人类安全使用的价值观非常一致。
后来,ChatGPT 支持插件机制,进一步扩展了 ChatGPT 与现有工具或应用程序的能力。到目前为止,它似乎是人工智能历史上最强大的聊天机器人。
ChatGPT 的推出对未来的人工智能研究具有重大影响,它为探索类人人工智能系统提供了启示。
2023 年 11 月 7 日, OpenAI 召开了首个开发者大会,会上推出了最新的大语言模型 GPT-4 Turbo(进阶版)。它将上下文长度扩展到 128k,相当于 300 页文本,并且训练知识更新到了 2023 年 4 月
2023 年 3 月发布的 GPT-4 将文本输入扩展到了多模态信号。GPT-4 的规模是 GPT-3 的 10 倍以上。因此,GPT-4 比 GPT-3.5 解决复杂任务的能力更强,在许多评估任务上表现出较大的性能提升。
GPT-4 对恶意或挑衅性查询的响应更安全。OpenAI 引入了称为红队评估(red teaming)的机制,以减少危害或有毒物质的产生。
GPT4 是在一个完善的深度学习基础设施上开发的,并使用改进的优化方法。OpenAI 引入了称为可预测扩展(predictable scaling)的机制,可以在模型训练期间使用一小部分计算准确预测最终性能。
Claude 系列模型是由 OpenAI 离职人员创建的 Anthropic 公司开发的闭源语言大模型。
该系列模型通过无监督预训练、基于人类反馈的强化学习和 Constitutional AI 技术(包含监督训练和强化学习)进行训练,旨在改进模型的有用性、诚实性和无害性。它可以完成摘要总结、搜索、协助创作、问答、编码等任务。
目前包含 Claude 和 Claude-Instant 两种模型可供选择,其中 Claude Instant 的延迟更低,性能略差,价格比完全体的 Claude-v1 要便宜,两个模型的上下文窗口都是 9000 个token(约 5000 个单词,或 15 页)。
最早的 Claude 于 2023 年 3 月 15 日发布,并在 2023 年 7 月 11 日,更新至 Claude-2。Claude 最高支持 100K 词元的上下文,而 Claude-2 更是拓展到了 200K 词元的上下文。
总的来说,Claude 2 注重提高以下能力:
PaLM 系列语言大模型由 Google 开发。其初始版本于 2022 年 4 月发布,并在 2023 年 3 月公开了 API。
PaLM 基于 Google 提出的 Pathways 机器学习系统搭建,训练数据总量达 780B 个字符,内容涵盖网页、书籍、新闻、开源代码等多种形式的语料。
前 PaLM 共有 8B、62B、540B 三个不同参数量的模型版本。Google 还开发了多种 PaLM 的改进版本。
Med-PaLM 是 PaLM 540B 在医疗数据上进行了微调后的版本,在 MedQA 等医疗问答数据集上取得了最好成绩。
PaLM-E 是 PaLM 的多模态版本,能够在现实场景中控制机器人完成简单任务。
2023 年 5 月,Google 发布了 PaLM 2,它是 PaLM(540B) 的升级版。其参数量为 340B,训练数据为 PaLM 的 5 倍左右。它使用了一个覆盖 100 多种语言的语料库进行训练,能够处理“多语言任务”。
PaLM2 实际上是一系列模型,可以根据规模分为:Gecko、Otter、Bison和Unicorn,可以根据不同的领域和需求进行微调,最小模型可以部署在移动端,最大的参数量也只有 14.7B,也可针对不同的领域又可以变成专有模型,比如 Med-PaLM 2,是第一个在美国医疗执照考试类问题上表现出“专家”水平的大型语言模型。
PaLM2 的几大突破:
文心一言是基于百度文心大模型的知识增强语言大模型,包括 NLP 大模型、CV 大模型、跨模态大模型、生物计算大模型、行业大模型,其中 NLP 大模型主要为 ERNIE 系列模型,是打造文心一言的关键。
文心大模型参数量非常大,达到了 2600 亿。它采用有监督精调、人类反馈的强化学习、提示等技术,还具备知识增强、检索增强和对话增强等关键技术。它基于飞桨深度学习框架进行训练,算法与框架的协同优化后,模型训练速度达到优化前的 3 倍,推理速度达到优化前的 30 多倍。它还建设了插件机制,通过外部工具、服务的调用,拓展大模型的能力的边界。
文心一言于 2023 年 3 月在国内率先开启邀测。文心一言的基础模型文心大模型于 2019 年发布 1.0 版,现已更新到 4.0 版本。2023 年 8 月 31 日,文心一言率先向全社会全面开放,提供 APP、网页版、API 接口等多种形式的开放服务。
目前,以文心一言为代表的大模型已经逐步赶超国外最优水平。
讯飞星火认知大模型是科大讯飞于 2023 年 5 月 6 日发布的语言大模型;6 月 9 日升级到 V1.5 版
,实现了开放式知识问答、多轮对话、逻辑和数学能力的提升;8 月 15 日升级到 V2.0版
,对于代码和多模态能力进行了提升;10 月 24 日发布了 V3.0版
,七大能力持续提升,全面对标ChatGPT,中文能力客观评测上超越ChatGPT,在医疗、法律、教育等专业表现也格外突出,还有在代码项目级理解能力、小样本学习、多模态指令跟随与细节表达等能力有所提升。
星火大模型包含超过1700 亿个参数,来源于数十亿的语言数据集,它提供了基于自然语言处理的多元能力,支持多种自然语言处理任务,尽管比 ChatGPT 3.5 模型 1.5 万亿个差着数量级,但 ChatGPT 覆盖了全球主要语言,汉语不到其中 10% 的数据量。所以在现有数据基础上,星火大模型比 ChatGPT 更懂中文。
讯飞星火 V2.0
升级发布的多模态能力,已实现图像描述、图像理解、图像推理、识图创作、文图生成、虚拟人合成。
基于代码和多模态能力的发布,智能编程助手iFlyCode1.0 和 讯飞智作2.0 两款应用产品也在发布会上发布,进一步解放编程和内容生产力。
同时,讯飞和华为还联合重磅发布了国内首款支持大模型训练私有化的全国产化产品“星火一体机”,可支持企业快速实现讯飞星火大模型的私有化部署、场景赋能和专属大模型训练优化。
LLaMA 系列模型是 Meta 开源的一组参数规模 从 7B 到 70B 的基础语言模型,它们都是在数万亿个字符上训练的,展示了如何仅使用公开可用的数据集来训练最先进的模型,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。
LLaMA 模型使用了大规模的数据过滤和清洗技术,以提高数据质量和多样性,减少噪声和偏见。它还使用了高效的数据并行和流水线并行技术,以加速模型的训练和扩展。
特别地,LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美。LLaMA 通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。
与 GPT 系列相同,LLaMA 模型也采用了 decoder-only 架构,但同时结合了一些前人工作的改进,例如:
Pre-normalization
,为了提高训练稳定性,LLaMA 对每个 Transformer子层的输入进行了 RMSNorm 归一化,这种归一化方法可以避免梯度爆炸和消失的问题,提高模型的收敛速度和性能;SwiGLU 激活函数
,将 ReLU 非线性替换为 SwiGLU 激活函数,增加网络的表达能力和非线性,同时减少参数量和计算量;RoPE 位置编码
,模型的输入不再使用位置编码,而是在网络的每一层添加了位置编码,RoPE 位置编码可以有效地捕捉输入序列中的相对位置信息,并且具有更好的泛化能力。这些改进使得 LLaMA 模型在自然语言理解、生成、对话等任务上都取得了较好的结果。
GLM 系列模型是清华大学和智谱 AI 等合作研发的开源语言大模型。ChatGLM
是基于 GLM 结构开发的具有 62 亿参数量的语言大模型,支持 2048 的上下文长度。其使用了包含 1 万亿字符的中英文语料进行训练,能够支持中文和英文两种语言的任务。通过监督微调、反馈自助、人类反馈强化学习等多种训练技术,ChatGLM 拥有强大的生成能力,能够生成更符合人类偏好的内容。与 GLM 相似,通过 INT4 量化 和 P-Tuning v2 等高效微调的算法,ChatGLM 能够在 7G 显存的条件下进行微调。
在 ChatGLM 的基础上,2023 年 6 月发布的 ChatGLM 2
使用了包含 1.4 万亿字符的中英预料进行预训练,并使用人类偏好的数据对模型进行对齐训练,拥有比前一版本更加强大的能力,在多个任务上取得提升。
在 2023 年 10 月 27 日的 2023 中国计算机大会(CNCC)上,智谱 AI 推出了 ChatGLM3
,ChatGLM3-6B
是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:
ChatGLM3-6B-Base
采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。长文本对话模型 ChatGLM3-6B-32K
。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。此外,还开源了 多模态 CogVLM-17B
、以及 智能体 AgentLM
,具体来说:
通义千问由阿里巴巴基于“通义”大模型研发,于 2023 年 4 月正式发布。
2023 年 8 月,阿里云开源了Qwen(通义千问)系列工作,当前开源模型的参数规模为70亿(7B)和140亿(14B)。本次开源包括基础模型Qwen,即 Qwen-7B
和 Qwen-14B
,以及对话模型 Qwen-Chat
,即 Qwen-7B-Chat 和 Qwen-14B-Chat。
它能够以自然语言方式响应人类的各种指令,如回答问题、创作文字、编写代码、提供各类语言的翻译服务、文本润色、文本摘要以及角色扮演对话等。借助于阿里云丰富的算力资源和平台服务,通义千问能够实现快速迭代和创新功能。此外,阿里巴巴完善的产品体系以及广泛的应用场景使得通义千问更具可落地性和市场可接受程度。
Baichuan 是由百川智能开发的开源可商用的语言大模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果,其基于Transformer 解码器架构。
Baichuan-7B
是在大约 1.2 万亿字符上训练的 70 亿参数模型,支持中英双语,最大 4096 的上下文窗口长度。
Baichuan-13B
在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 字符,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。其支持中英双语,使用 ALiBi 位置编码,最大 4096 的上下文窗口长度,使用 rotary-embedding,是现阶段被大多数模型采用的位置编码方案,具有很好的外推性。
百川同时开源了预训练
和对齐
模型,预训练模型是面向开发者的“基座”,而对齐模型则面向广大需要对话功能的普通用户。除了原始权重,为实现更高效的推理,百川开源了 INT8 和 INT4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源需求。
Baichuan 2 是百川智能推出的新一代开源大语言模型,Baichuan2-7B
和 Baichuan2-13B
,均基于 2.6 万亿 Tokens 的高质量语料训练,在保留了上一代开源模型良好的生成与创作能力,流畅的多轮对话能力以及部署门槛较低等众多特性的基础上,两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。Baichuan 2 在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化。
2023 年 10 月 30 日,百川智能发布 Baichuan2-192K
大模型,上下文窗口长度高达 192 K ,发布时是全球最长的上下文窗口(但不久后就被零一万物的首款开源大模型 —— Yi 打破纪录达到 200 K,可直接处理 40 万汉字超长文本输入)。Baichuan2-192K 能够一次处理约 35 万个汉字,是目前支持长上下文窗口最优秀大模型 Claude2(支持 100 K上下文窗口,实测约 8 万字)的 4.4 倍。
利用 OpenAI 提供的 API 或者私有化模型,来开发基于大型语言模型的应用程序时,尽管LLM的调用相对简单,但要创建完整的应用程序,仍然需要大量的定制开发工作,包括API集成、互动逻辑、数据存储等等。
为了解决这个问题,从 2022 年开始,许多机构和个人相继推出了多个开源项目,旨在帮助开发者们快速构建基于大型语言模型的端到端应用程序或工作流程。其中一个备受关注的项目就是 LangChain 框架。
LangChain 框架是一个开源工具,充分利用了大型语言模型的强大能力,以便开发各种下游应用。它的目标是为各种大型语言模型应用提供通用接口,从而简化应用程序的开发流程。具体来说,LangChain 框架可以实现数据感知和环境互动,让语言模型与其他数据来源连接,并且允许语言模型与其所处的环境进行互动。
LangChain 的作者是 Harrison Chase,该项目自从 2022 年 10 月在 github 上开源以后,迅速吸引了大量开发者的兴趣和投资者的青睐,也由此转变为一家初创公司。
前段时间,AI初创公司 LangChain 成功完成了 1000 万美元的种子轮融资,投资方为 Benchmark Capital。这笔融资进一步证实了 LangChain 作为 AI 初创企业的领军地位。并且,在本次种子轮融资后,LangChain 不久后再次获得了红杉领投的 2000 万至 2500 万美元融资,估值达到 2 亿美元。
LangChian 作为一个大语言模型开发框架,可以将 LLM 模型(对话模型、embedding模型等)、向量数据库、交互层 Prompt、外部知识、外部代理工具整合到一起,进而可以自由构建 LLM 应用。 LangChain 主要由以下 6 个核心模块组成:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。