赞
踩
弄清楚了以下几个问题。
○ AI 大模型系统是什么?
○ 为什么 AI 大模型系统是新一代应用平台?
○ 在这轮技术革命中,OpenAI 的最终目标是什么?
学会了如何利用市面上流行的开源工具,快速构建“原型系统”。但要牢记,不要过于陶醉于“一日千里”的幻觉中,要明白开源工具只是体验版,并非真正的大模型系统。
为什么这么说呢?因为开源工具主要用于快速构建原型,而不是为工业级系统设计的。我们这就来梳理一下刚开始学习时最容易产生的误区。
将 LangChain 和 AutoGPT 认作真正的 LLM 系统链式调用的
LangChain,虽然学习起来非常方便,但无法经受生产环境真实流量考验,并不是说 LangChain 的链式调用方法或者说编程语言
Python 不适合生产环境,它差得可不止这一星半点。
真正工业级的应用需要有离线、近线几套系统配合供给,才能让在线系统效果出众、性能稳定。如果你想深入学习开源项目,提升自己的职业能力,不要浪费时间去研究
LangChain 和 AutoGPT
这类科研原型验证项目的开源代码。你更应该去学习那些得到商业公司支持、质量更高的开源项目,这对你的职业发展会有直接帮助。因为科技公司们能直接通过开源项目,获得真金白银的收益,所以,他们会不遗余力地发展自己的开源软件。
这里我举几个例子,来帮助你理解这句话,第一个例子是 Google,它的研发人员已经成为了 Android 和 Kubernetes
这些项目社区的核心成员,所以他们可以通过技术手段制定商业标准。第二个例子是
Oracle,大多数企业更倾向选择有影响力的开源软件对应的商业版本,来支撑自己的业务。所以,MySQL 可以让 Oracle
的收费数据库卖得更好。总之,我希望你可以客观地看待“开源”这种技术合作形式,选择合适的学习项目。如果想更进一步,则应将开源当作技术发展的一个途径,而不仅仅将开源作为充满技术情怀的
Hacker 行为。
将 Embedding检索奉为记忆增强的“圭臬”上节课学到的向量(Embedding)检索技术,虽然外行觉得很新鲜,但一些网上资料有点过于强调它的作用了,其实它只是内容推荐系统中再普通不过的一项技术。大模型通过提示词中信息的
Embedding
去检索外部记忆片段这种做法并不高明,充其量只是字面匹配的一个变种而已,存在非常明显的缺点。你无法找到主题最相近的文档,因为在一开始,你就把文档的语义切割了,更何况你所能使用的开源向量检索,根本没办法满足工业级的性能和数据量级要求。而且即便只选择使用向量检索的方式做外部记忆增强,也会出现外部文档过多、向量索引快速膨胀的问题,这时如果没有工业级人工智能系统的架构做支撑,你的系统将被慢慢拖死
无视开源大模型的内容生成质量问题各类开源模型,比如 ChatGML 和 Llama
是无法直接拿来满足商业需求的。用它们搭建一个小型的自动化工具尚且勉强够用,但如果是在客户需要花费真金白银的商业场景,结果可想而知。
在大模型商业化的过程中,模型的领域定制是免不了的。有些同学可能在一些地方学习了如何简单使用 OpenAI 的 API来微调你的模型,它虽然名字叫微调,不过只是为每个用户做了极其浅层的补丁,严格意义上算不上微调。真正的领域微调需要基于定制化的模型,使用高性能的训练框架进行大规模分布式训练,结合强化学习和MoE(混合专家模型)。因为在商业系统中,绝对不允许出现差错,对模型性能有严格的要求。
为了真正理解工业级大模型的强悍之处,我们先得提升自己的见识,具备扎实人工智能理论知识。通俗一点解释,其实模型可以看作一个函数,它模拟了人类智能的运行方式。在模型训练中,你所做的就是解出这个函数中未知变量的值。
接着,我们需要通过特征工程让模型更好地理解训练数据。特征工程的核心是对样本数据的改造,可以将数据映射到更细致的维度,或者映射到更高维度的空间。
一旦你掌握了上述基本概念,就能训练出一个工业级的模型了,之后学习人工智能三个主要流派中常用的算法,解释它们的优缺点和适用范围。学会如何将它们融合运用,以满足工业级
AI 系统不同场景的需求。
当你深入了解了人工智能算法的原理后,你就能更顺利迈进大模型相关的知识领域了。谈到大模型,首先要谈的就是预训练模型(PTM)。明白为什么许多大模型技术起源于预训练模型的方法,为什么预训练模型首先在视觉领域得到广泛应用。
最后,了解现代大语言模型的发展历程,及其背后引人注目的历史。这包括几次技术革命,以及 Google 和 OpenAI
之间关于技术选型的竞争。
在你掌握了足够的理论基础后,再深入探索如何在实际工业场景中,通过构建离线数据工程和模型训练系统,使你能够独立地训练模型,并进行在线实时的增量更新。这些步骤是让AI 系统变得智能的关键。
接下来,将从零开始,学习如何进行多机多卡的分布式训练,制造一个真正的大模型。这就是为何 OpenAI每次训练都需要花费上千万美元。
当然,实际应用中,你通常只需要对模型进行微调。学会一些技巧,以加速你的模型微调过程。
最后,学习使用强化学习(RLHF)的方法,来微调你的大模型。了解适合这种方法的场景,以及这样做的好处是什么。
AI 大模型系统最鲜明的一个特征,就是针对自己的业务场景,基于数据驱动的业务系统框架去定制大模型,而不是使用别人“施舍”的通用大模型。
首先,我们需要学习 AI 系统的策略建模方法。思路是把业务问题转化为数学问题,然后对这些数学问题进行建模,最终将它们转化为工程问题。在这个过程中,你将学会如何根据不同的场景选择合适的模型算法。
在学习 AI内容推荐服务时,你将掌握如何让你的系统轻松地应对在线真实场景,如何通过调整算法来灵活地控制在线指标。这些问题也是在线内容生成(AIGC)系统需要解决的。
如果想让你的系统在商业竞争中处于优势地位,就需要有针对性地设计系统模块,结合在线服务的特性来实现算法。这样,你的系统才可能成为商业竞争中有竞争力的智能体。
这不仅关系到在线 AI 系统的盈利能力,也是让你的 LLM 应用走向具身智能的重要技能。对于 AIGC系统而言,为了避免过高的推理开销增加商业成本,模型小型化的方法也必不可少,这能大大降低在线推理的开销。
至于前面说的外部记忆问题,我们需要去学习如何构建一个工业级的检索增强系统。这个系统将成为提示引擎的主要外部记忆,也会成为可信 AI的重要依据。该系统的数据来源正是 AIRC 系统中积累的强大知识表示和检索能力。
另外,安全可靠的风控模块也必不可少,这样 AI系统才能拥有工业级的鲁棒性,确保你的商业系统能够在各种真实风险中稳定运行。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。