赞
踩
2022年底第一次听说chatGPT, 从最初的对话,到如今的文生视频Sora,带来的效果,越来越超出我们的想象。
在2023年,我尝试去了解GPT可以干什么,有什么用,该怎么用,不过变化太快,最终也没有找到一个好的方式干进去。
为什么变化这么快,说到底,是AI大模型带来的巨变。
现在很多大厂都在降薪裁员,也有不少公司在All in AI,我们都有一个预感,要变天了。你想想,如果有一天,一款游戏的所有美术、策划、服务端、客户端、客服都可以由一个人通过AI搞定了,就问你慌不慌?
因此,在2024年,我决定尝试去了解AI大模型,并打算用白话的方式做一些笔记,由于我也是一名初学者,当然这只是非常浅显的知识,但对还没有入门的普通人来说,希望能对理解大模型有些许帮助。
在学习大模型之前,有必要先了解GPT,了解GPT相关的一个个名词, 那么我们就从GPT开始我们的第一篇大模型学习笔记。
GPT是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。
GPT是Generative Pre-Trained Transformer的缩写,我们把GPT三个字母拆开来理解:
这是一种机器学习模型,它的作用是学习数据的分布,生成与训练数据类似的新数据。这其实就是之前自然语言处理(NLP)领域干的事。
预训练是深度学习领域的一种方法,通过对大数据进行训练,学习知识的特征训练成基础模型,然后针对特定业务进行微调。
Transformer是自然语言处理中的一种神经网络结构,它通过自注意力(Self-Attention)机制有效捕捉上下文信息,处理长距离依赖关系,并实现并行计算。
不论是现在的chatGPT还是目前国内的大模型,都是基于Transformer,所以了解大模型我们绕不开Transformer。
注意力机制是一种用于帮助循环神经网络(RNN)处理更长序列或句子的技术。
谷歌在2017年发表的一篇论文《Attention Is All you Need》, 提到在注意力机制的使用方便取得了很大的进步,对Transformer模型做出了重大的改进。
我们可以理解为谷歌在2017年就搞了这玩意,并且取得了一定的成果,其中Transformer模型的核心算法就是注意力机制。不过很遗憾,搞出chatGPT的居然不是谷歌。
举个例子,假如我们需要将一个句子从一种语言翻译到另一种语言。逐词翻译的操作方式通常不可行,因为这会忽略每种语言独有的复杂语法结构和习惯用语,从而导致出现不准确或无意义的翻译结果。而注意力机制让模型在每个时间步骤都能访问所有序列元素,其中的关键在于选择性,也就是确定在特定上下文中哪些词最重要。
这个东西我也只能了解一个大概,不过我们只要了解这是神经序列转导模型的一个编码器和一个解码器,Transformer就是靠这个来计算的,我把网上查到的介绍和图贴在下面,能理解多少,看大家的造化吧。
大多数具有争议的自然序列转导模型都具有编码器-解码器结构[5,2,35]。在此,编码器将符号表示形式(x 1,…,x n)的输入序列映射到连续表示形式z =(z 1,…,z n)的序列。给定z,则解码器然后一次生成一个元素的符号的输出序列(y 1,…,y m)。模型的每一步都是自动回归的[10],在生成下一个时,会将先前生成的符号用作附加输入。Transformer遵循这种总体架构,对编码器和解码器使用堆叠式自注意力层和逐点,全连接层,分别如图1的左半部分和右半部分所示。
在这里说两句,人类真的很神奇,通过不同的笔画、不同的字母组成不同的字或单词,更以这些有限的字或单词,组成了表现无限种不同意思的句子,有时虽然字是相同的,意思是完全不一样的,举两个很简单的例子,“饿不”和“不饿”、“狗咬了你”和“你咬了狗”,字完全一样,但位置不一样意思就不一样,所以很多时候要从文字理解一句话的意思,甚至结合上下文来理解,这难度可想而知。据说,chatGPT仅在参数量上,就有千亿级的参数。还好,我们很幸运,这些高难度的东西有高个的已经帮我们搞定了,我们只需要躲在后面猥琐发展就好了。
LLM是Large Language Model的缩写,下面贴上来自UC伯克利最新LLM大模型排行。
当然这里前3名都闭源模型,后面开源模型,大多数也都是英文的模型。如果GPU资源充足(至少 A100*8),可以基于开源模型做中文的预训练,最后再 finetuning ,如果没有GPU资源的话, 我们也可以选择开源的中文模型直接做微调。
今天先笔记到这里,初学者先消化一下。
人工智能大模型越来越火了,离全民大模型的时代不远了,大模型应用场景非常多,不管是做主业还是副业或者别的都行,技多不压身,我这里有一份全套的大模型学习资料,希望给那些想学习大模型的小伙伴们一点帮助!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。