当前位置:   article > 正文

AI大模型起源与发展-小白必学_ai的早期模型

ai的早期模型

1.AI的四次发展

人工智能(1950年) -> 机器学习(1980)(学习一些模式,模型) -> 深度学习(2010)(人脸识别等,AI四小龙) -> 大语言模型(2020)生成式人工智能(AGI) 数据 + 算力
在这里插入图片描述

2.连接主义学派(学模式) 与 符号(推理)(专家系统,LISP)主义学派(根据人学习过程逻辑)

大语言模型是两个学派的结合, CNN之父(Yann LeCun,杨立昆), hiton , 手写体(mnist), imagenet(图像识别)数据集 , 语音识别 ,阅读理解 NLP(Natural Language Processing)自然语言处理

3.注意力机制(Attention Mechanism)(类似序列对齐的RNN)- >关注关键的信息,忽略冗余的信息

encoder-decoder 加 attention 注意力机制源于对人类视觉的研究。由于信息处理的瓶颈,人类会选择性地关注信息的一部分,同时忽略其他可见的信息,其实是一个学习套路,效果好,并提高了可解释性, 机器翻译:encoder-decoder架构 RNN -> LSTM 注意力机制: alignment function 输入和输出对齐的函数(学习的矩阵),输入与输出关联关系,对应权重,关键位置key, 对齐函数可以有有很多种,然后构造context vector 上下文向量, encoder-decoder 编解码 an attentive survey of attention models (论文), neural machine translation by jointly learning to align and translate (论文)bengio query , (2014年)

4.transformer 的崛起(self-attention)-> 提升语义理解能力

neural Architectures :encoder-decoder ,transformer, memory nerworks attention mechanism types: 对序列,co-attention, self-attention 注意力机制 使用self-attention 机制, transformer是网络结构 ,encoder-Decoder结构里面没有用RNN,它要提高语义的理解能力,语句内部的关联关系, 但是仍然使用encoding ,Decoding,编解码形式,自己造了位置编码 分布函数,输入,对齐函数 多头机制multi-Head ,可GPU并行计算,可以捕获更长语句的语义 Attention is all you need (论文)(2017年)

5. GPT 与 Bert

预训练模型 -> 大语言模型 从2018年开始从一个具体的深度学习任务 ,发展为用预训练模型去提升语言理解能力 transform(self-attention)的两个分支 GPT和 BERT BERT: pre-training of Deep bidrectional transformers for Language (论文) impoving language understanding by generative pre-Training(论文)openAI团队

Google 团队,BERT对自然语言处理不用做标记,pre-training + Fine-Tuning(微调) 范式, Bert优势:bert是双向理解上下文,能更好的理解语言,通过微调能应用到多种NLP任务中,只需一种模型能处理多种任务,bert开源, 训练方式:自编码(autoencoding),语言模式:判别式(discriminative),输入处理:双向,可以同时考虑一个词的左右上下文,对上下文理解能力较强,生成的文本连贯性较弱

word embedding (word2vec,glove)都是用来学把变成一个向量, 预训练的embedding: 用来学着把短语,句子,段落变成一个向量,双向学习 masked LM : mask 15%

GPT:训练方式:自回归(autoregressive),语言模式:生成式(generative),对上下文理解能力较弱,生成的文本连贯性较强,输入处理:单向(从左到右或者从右到左)

bert和GPT: 都是transformer模型架构,均使用大量无标签数据进行预训练,都可以通过fine-tuning方式进行任务迁移,均支持多语言模型训练,都需要对数据进行tokenization(标记化),一般使用词片方法(subword tokenization)

arxiv 免费的论文网站 A survey of large language models.(论文)

6.语言模型(人的知识转成机器的知识) -> 大语言模型

人工规则(规则集) -> 统计机器学习(标注数据) -> 深度学习(标注数据) -> 预训练(未标注数据) -> 大语言模型(用户数据)

image.png 预训练语言模型网络框架:1).编码器,encoders主要用于处理和理解输入信息,可以获得双向的上下文,适用于需要理解整个句子的任务,如文本分类,实体识别,Bert是典型的预训练编码器 2).解码器,decoders主要用于生成输出信息,用于预测下一个单词,适合生成任务,如文本生成,对话系统,GPT是典型的预训练解码器 3).编码器-解码器,encoder-Decoders结合了编码器和解码器的优点,编码器首先处理输入信息,解码器生成输出信息,适合需要理解输入信息并生成对应的输出的任务,如机器翻译、文本摘要,T5和Bart是典型的预训练编码器解码器模型

image.png

ELMO:(deep contextual word embeddings) pre-trained embeddings的模型,类比word2vec, GPT-1 :improving Language Understanding by generative pre-training ,openAI(transformer decoder 12层,1.1亿参数) GPT-2: 模型变大,喂更多数据,(15多亿参数,transformer decoder 48层) GPT-3:添加网络数据,语料变多(1750亿模型,transformer decoder 96层)提出in-context learning(zero-shot, one-shot,few-shot不超过10个)或者称为prompt代替fine-tuning,提出prompt engineering, 预训练(pre-Trained)大规模预训练是为了使模型获取丰富的语言知识和理解能力,在预训练过程中,模型通过大量的无标签数据来学习语言的基础知识,这一过程主要是依赖无监督学习。 指令微调(instruction-tuning):在预训练的基础上,通过针对特定任务的标注数据进行微调,能够使模型在特定任务上的表现得到提升,对微调数据的精心设计和选择,还能够引导模型按照人类的预期来执行任务,这个过程依赖有监督学习。微调利用预训练模型提供的丰富的语言知识,来解决特定的任务,微调的数据比预训练的数据要少得多,微调的主要作用不是为模型注入新的知识,而是激发和引导模型利用已有的知识来完成特定任务。 但是微调的时候可能会出现一些问题,例如数据稀疏性、灾难遗忘、资源浪费和通用性差等,为了解决这些问题,提出了新的训练策略就是提示学习,通过设计提示信息,可以激发预训练大模型的能力,从而提高模型在具体任务上的表现。

GTP-3.5: code训练(code-davinci-002 -> text-davinci-002),人类指令响应(Responding to Human instructions)针对指令生成更恰当的回应,而不是训练集中频繁出现的无关句子; 任务泛化能力(task generalization)当新模型接收大量指令调整后,能自动适应并有效回答未见过的新指令,应对用户不断变化的问题; 代码理解与生成(code understanding and generation)新模型能理解并生成代码,强化编程相关能力; 复杂推理的思维链(chain of thought for complex reasoning)提高思维链推理能力,使其能处理需要多步推理的问题,突破模型缩放法则(scaling laws)

chatGPT的三段训练法:1)有监督微调SFT,改模型 2)奖励机制(RM)训练,有标注人员对结果打分 3)通过PPO根据奖励模型进行强化学习, chatGPT进行了一些优化以更好地处理用户的输入,包括理解和响应各种类型的查询,如信息查询 ,任务请求、小说式的输入等,对输出生成进行了一些优化以生成更贴近人类的输出,包括使用更复杂的生成策略、生成更长的响应,以及更好的处理模糊或不确定的输入等,chatGPT还进行了一些改进以提高模型的安全性和符合道德规范,

NLP基准测试(关注自然语言推理任务,检验模型是否能够理解句子之间的逻辑关系,例如蕴含、矛盾或无关):MNLI-m(MUtil-genre Natural Language Inference,matched), MNLI-mm(Multi-Genre Natural Language Inference, mismatched ),SNLI(stanford Natural Language Inference) ,SciTail, QNLI(Question Natural Language Inference),RTE(Recognizing textual entailment)

GPT-4:1)多模态模型(不仅支持文本,还支持图像,视频,音频等),2)GPT+ 生态:借助GPT-4能力,依托chatGPT plugin 搭建AIGC应用生态商店(类似APP store) 3) 应用+ GPT:GPT-4已经被应用到多个领域,包括微软office 、Duolingo等 4) 扩展上下文窗口:gpt-4可以通过更多的上下文来完成更复杂的任务,为思维链(Cot)、思维树(tot)等后续工作提供了可能。

7.表示学习(representation learning)与嵌入(embedding)字符 -> 单词 -> 语义

存储 -> 统计 -> 学习 在机器学习和深度学习的应用中,文本数据需要转换为数值型数据。one-hot是常用的转换方式,在ont-hot编码(词汇表)中,每个汉字都被表示为一个只有一个元素为1,其他元素全为0的向量,向量的长度等于汉字的总数量,1的位置表示该汉字的索引,one-hot编码优点是简单直观,但当汉字数量非常大时,one-hot编码会占用大量的内存。

  • 词嵌入:词嵌入是一种基于深度学习的自然语言处理技术,被用于表示文字包括汉字,将每个字或词映射到一个高维向量,这个向量可以捕捉到字或词的语义信息。
  • 表示学习: 通过学习算法自动地从原始数据学习到一种表示形式或者特征表示,表示学习的目标是将输入数据转换成具有良好表示能力的特征空间,使得在该空间中的数据具有更好的可分性、可解释性或推理能力
  • 嵌入: 表示学习的一种形式,通常用于将高维数据映射到低维空间中的表示形式,嵌入就是降维。嵌入可以有词嵌入、图像嵌入、图嵌入,在自然语言处理中,词嵌入将词语映射到低维向量空间,以捕捉词语之间的语义和句法关系。在图像处理中,图像嵌入将图像映射到低维向量空间,以表示图像的视觉特征。 嵌入是表示学习的特定形式,旨在将高维数据转换为低维向量表示,通过嵌入可以捕捉到语义信息,找到关联关系,找到相似,并且能自适应数据特性,不需要人工设计特征。 t-SNE嵌入方面降维可视化工具

representation learning: A review and new Perspectives(论文)

  • word embedding:词嵌入通常用来生成词的向量表示,这个过程通常是静态的,即一旦训练完成,每个词的向量表示就确定了,词嵌入的主要目标是捕获单词或短语的语义和语法信息,并将这些信息以向量形式表示出来,它的重要特性是,语义上相近的词在嵌入空间中的距离比较近,但是词嵌入并不能理解上下文信息,即相同的词在不同的上下文中可能有不同的含义,但词嵌入无法区分这些含义。
  • languages model :语言模型则是预测词序列的概率模型,这个过程是动态的,会根据输入的上下文进行变化,语言模型的主要目标是理解和生成文本,包括对上下文的理解,词的预测,句子的生成等等,语言模型会用到词嵌入,但同时也会对上下文进行建模,这样可以处理词在不同上下文中的不同含义。词嵌入是语言模型的一部分或者输入,语言模型使用词嵌入捕捉的信息,来进行更深层次的语义理解和文本生成。但是Bert和GPT等,它们生成的是上下文相关的词嵌入,即词嵌入会根据上下文变化。

最后的想法

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/695744
推荐阅读
相关标签