赞
踩
为什么这个视频值得分享,我觉得内容非常精要,准确权威而且通俗易懂。简要介绍下Andrej: 他在斯坦福大学获得了计算机科学博士学位,师从著名的计算机科学家、人工智能研究员李飞飞教授。研究主要集中在深度学习、卷积神经网络和计算机视觉领域。曾在Google Brain 实习,参与了 TensorFlow 的开发。此外,他还是一位著名的开源软件贡献者。
实际上,如果你下载一个大语言模型到你的电脑上,而这个大模型的文件却非常简单,它只有两个文件:
1.参数文件:
参数文件含了训练出来的参数,这些参数在模型训练过程中,通过预测任务去“学习”(可以理解为预测+压缩)大量的知识。以开源大模型llama-2-70b为例,它的参数文件大概在140GB。
2.运行文件
运行文件负责运行神经网络,可以是C、Python或任何其他编程语言编写的代码。以开源大模型llama-2-70b为例,它的运行文件代码只有500行C语言。
确实就是这么简单,你只需要这两个文件,就可以在你的电脑无需上网的情况下运行一些开源大模型。(当然你的电脑配置将决定你可以离线运行的一些大模型版本)
大模型即Large language Model,即大型语言模型的缩写简称。
它是目前最热门的ChatGPT等人工智能工具背后最核心的技术。
大型语言模型是一种神经网络,一种最简单的理解即它总是可以根据给定的文本生成下一个单词的概率,反复运用此方法,它就输出了成体系有条理的句子和内容了。它对下一个单词的预测取决于给定的内容和在此对话中的上下文,它能识别其中的重点,可以通过给定不同的输入来生成不同类型的输出,例如代码、诗歌、文章等。
视频中举了一个例子,例如我们给出“猫坐在”的上文,让机器来预测后面可能出现的文本。
基于神经网络,它预测“猫坐在”后面接着“地毯上”。
神经网络实际上是借鉴了人大脑的神经结构的机器学习算法,一种通俗的解释可以是:我们想象一下虽然我们人的决策思考都非常复杂,但是实际上我们大脑的神经传递信号的方式却非常简单,就是每个神经元之间通过递质传递信号来完成异常复杂的判断,每两个神经元之间的信号有不同的强弱。
我们大脑中有一个神经元组成的网络来传递信号。这就使得一个简单的刺激,例如我们看到红色,眼睛接受视觉信息输入,转化为电信号,通过视觉神经传到中枢系统,我们判断是危险的红色信号,还是吸引人的红色,再通过神经网络不同神经元的传递,最终给行动系统发出指令,我们是逃避还是靠近(输出)。
神经网络的算法设计类似,神经元就是它的权重和偏置项,这些每个权重和偏置项就构成了神经网络的参数。
其实原本神经网络就已经存在很多年并且被大家一直在利用解决很多例如自然语言处理,图像识别等等问题。而ChatGPT的横空出世,是因为大家发现当把参数加大比之前要大得多的程度,这时AI产生了智能涌现,也就是说好像这个AI一夜长大,它的智能得到了极大的提升,它变得通用起来。ChatGPT4的参数数量目前在1.8万亿个(之前的ChatGPT3的参数在1750亿个),Meta Facebook母公司发布的开源大语言模型LLama目前参数为2700亿。
从目前来看,参数量越大,训练文本数量越多,大模型的智能表现越好,并且目前还没有显示到顶的迹象。我们最终期待的是大语言模型带来的在所有知识领域的真正通用能力。
下图显示的是GPT4和GPT3.5在人类的不同官方测试中的得分对比,我们可以看到GPT4的泛化能力,之前的GPT3.5蓝色条(集中在一些领域有优势,得分高),而GPT4绿色条(在很多领域表现都很出色)展现得更加通用了。
大型语言模型的训练需要大量的计算资源和数据,通常需要数千个GPU和数10TB的文本。所以它的训练是十分昂贵的。这也是为何很多大佬在屯显卡GPU,因为它的训练需要十分强大的GPU。算个小帐,如果使用6000个GPU训练12天,那么花费在200万美金左右。
在此阶段,下载训练所需的文本
获取你的GPU资源
把文本压缩进神经网络,支付资源费用,进行训练
最终你得到一个基座模型Base model
撰写标注指南
雇佣数据标注人员,收集高质量的理想问答,并进行比较
基于这些数据微调基座模型,等一天
获得助手模型Assistant model
进行验证
部署
监控,收集错误行为,重新回到预训练。
基本上一个大语言模型的产生就是以上步骤的反复。一般预训练的间隔是以年为单位,因为它成本很高,而微调的间隔则可以以周为单位来进行,它更加灵活,成本低。
快思考,慢思考概念来自诺贝尔经济学获得者丹尼尔卡尔曼的著作:思考,快与慢。他把人的一些本能的反应式的思考方式称为快思考,例如你开车时遇上危险的临场反应,或者守门员在球过来时的即刻响应,他们都不可能经过深思熟虑,而是长久的训练导致的快速反应。而慢思考相反,它是我们在考试时,或者面对一个复杂问题时的思考方式,我们会分析,假设,推测,判断,行动,等待反馈,调整行动的复杂过程。
当下的大模型在作者看来,还仅仅只是使用快思考,它接受用户的输入内容,即可做出反应,它还不能深思熟虑的处理复杂问题,或者等待一些自己的假设验证后再继续行动,例如决策树式的能力机制是目前大模型还不具备的。
那么接下来的大模型发展,一方面多模态的成熟,一方面AI agent发展,大模型借助行动能力,可以在决策树的慢思考上继续发展。
所以作者认为大语音模型更像操作系统,而不是应用。所以他认为ChatGPT的发展方向类似操作系统OS:
• 它就其他OS一样可以执行各种程序和命令,提供各种服务和功能,只是之前执行各种程序和命令是由人来操作,未来它自己可以执行。
• 大型语言模型与操作系统的区别是它们是基于数据和概率的,而不是基于逻辑和确定性的
• 大型语言模型与操作系统的联系是它们都需要界面、应用、安全、标准等方面的发展和协作
大语言模型也会和传统操作系统发展类似,会有类似windows,MacOS这类封闭的个人用系统,也有基于Linux的各种开源系统,和基于此开源系统发展的各种专业系统。
我们可以想见当下例如ChatGPT,Bard,Claude-3这类都是闭源系统,而基于Meta的llama大语言模型会发展很多的开源系统。
最后作者讲到大语言模型同样面临多种安全问题。
• 病毒植入
• 欺骗AI的攻击
• 有害数据的植入
• 后门攻击
• 等等,围绕操作系统的安全攻防战依然会再次上演。
大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
掌握大模型技术你还能拥有更多可能性:
• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;
• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;
• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;
• 更优质的项目可以为未来创新创业提供基石。
可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。
-END-
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。