赞
踩
人工智能(1950年) -> 机器学习(1980)(学习一些模式,模型) -> 深度学习(2010)(人脸识别等,AI四小龙) -> 大语言模型(2020)生成式人工智能(AGI) 数据 + 算力
大语言模型是两个学派的结合, CNN之父(Yann LeCun,杨立昆), hiton , 手写体(mnist), imagenet(图像识别)数据集 , 语音识别 ,阅读理解 NLP(Natural Language Processing)自然语言处理
encoder-decoder 加 attention 注意力机制源于对人类视觉的研究。由于信息处理的瓶颈,人类会选择性地关注信息的一部分,同时忽略其他可见的信息,其实是一个学习套路,效果好,并提高了可解释性, 机器翻译:encoder-decoder架构 RNN -> LSTM 注意力机制: alignment function 输入和输出对齐的函数(学习的矩阵),输入与输出关联关系,对应权重,关键位置key, 对齐函数可以有有很多种,然后构造context vector 上下文向量, encoder-decoder 编解码 an attentive survey of attention models (论文), neural machine translation by jointly learning to align and translate (论文)bengio query , (2014年)
neural Architectures :encoder-decoder ,transformer, memory nerworks attention mechanism types: 对序列,co-attention, self-attention 注意力机制 使用self-attention 机制, transformer是网络结构 ,encoder-Decoder结构里面没有用RNN,它要提高语义的理解能力,语句内部的关联关系, 但是仍然使用encoding ,Decoding,编解码形式,自己造了位置编码 分布函数,输入,对齐函数 多头机制multi-Head ,可GPU并行计算,可以捕获更长语句的语义 Attention is all you need (论文)(2017年)
预训练模型 -> 大语言模型 从2018年开始从一个具体的深度学习任务 ,发展为用预训练模型去提升语言理解能力 transform(self-attention)的两个分支 GPT和 BERT BERT: pre-training of Deep bidrectional transformers for Language (论文) impoving language understanding by generative pre-Training(论文)openAI团队
Google 团队,BERT对自然语言处理不用做标记,pre-training + Fine-Tuning(微调) 范式, Bert优势:bert是双向理解上下文,能更好的理解语言,通过微调能应用到多种NLP任务中,只需一种模型能处理多种任务,bert开源, 训练方式:自编码(autoencoding),语言模式:判别式(discriminative),输入处理:双向,可以同时考虑一个词的左右上下文,对上下文理解能力较强,生成的文本连贯性较弱
word embedding (word2vec,glove)都是用来学把词变成一个向量, 预训练的embedding: 用来学着把短语,句子,段落变成一个向量,双向学习 masked LM : mask 15%
GPT:训练方式:自回归(autoregressive),语言模式:生成式(generative),对上下文理解能力较弱,生成的文本连贯性较强,输入处理:单向(从左到右或者从右到左)
bert和GPT: 都是transformer模型架构,均使用大量无标签数据进行预训练,都可以通过fine-tuning方式进行任务迁移,均支持多语言模型训练,都需要对数据进行tokenization(标记化),一般使用词片方法(subword tokenization)
arxiv 免费的论文网站 A survey of large language models.(论文)
人工规则(规则集) -> 统计机器学习(标注数据) -> 深度学习(标注数据) -> 预训练(未标注数据) -> 大语言模型(用户数据)
预训练语言模型网络框架:1).编码器,encoders主要用于处理和理解输入信息,可以获得双向的上下文,适用于需要理解整个句子的任务,如文本分类,实体识别,Bert是典型的预训练编码器 2).解码器,decoders主要用于生成输出信息,用于预测下一个单词,适合生成任务,如文本生成,对话系统,GPT是典型的预训练解码器 3).编码器-解码器,encoder-Decoders结合了编码器和解码器的优点,编码器首先处理输入信息,解码器生成输出信息,适合需要理解输入信息并生成对应的输出的任务,如机器翻译、文本摘要,T5和Bart是典型的预训练编码器解码器模型
ELMO:(deep contextual word embeddings) pre-trained embeddings的模型,类比word2vec, GPT-1 :improving Language Understanding by generative pre-training ,openAI(transformer decoder 12层,1.1亿参数) GPT-2: 模型变大,喂更多数据,(15多亿参数,transformer decoder 48层) GPT-3:添加网络数据,语料变多(1750亿模型,transformer decoder 96层)提出in-context learning(zero-shot, one-shot,few-shot不超过10个)或者称为prompt代替fine-tuning,提出prompt engineering, 预训练(pre-Trained)大规模预训练是为了使模型获取丰富的语言知识和理解能力,在预训练过程中,模型通过大量的无标签数据来学习语言的基础知识,这一过程主要是依赖无监督学习。 指令微调(instruction-tuning):在预训练的基础上,通过针对特定任务的标注数据进行微调,能够使模型在特定任务上的表现得到提升,对微调数据的精心设计和选择,还能够引导模型按照人类的预期来执行任务,这个过程依赖有监督学习。微调利用预训练模型提供的丰富的语言知识,来解决特定的任务,微调的数据比预训练的数据要少得多,微调的主要作用不是为模型注入新的知识,而是激发和引导模型利用已有的知识来完成特定任务。 但是微调的时候可能会出现一些问题,例如数据稀疏性、灾难遗忘、资源浪费和通用性差等,为了解决这些问题,提出了新的训练策略就是提示学习,通过设计提示信息,可以激发预训练大模型的能力,从而提高模型在具体任务上的表现。
GTP-3.5: code训练(code-davinci-002 -> text-davinci-002),人类指令响应(Responding to Human instructions)针对指令生成更恰当的回应,而不是训练集中频繁出现的无关句子; 任务泛化能力(task generalization)当新模型接收大量指令调整后,能自动适应并有效回答未见过的新指令,应对用户不断变化的问题; 代码理解与生成(code understanding and generation)新模型能理解并生成代码,强化编程相关能力; 复杂推理的思维链(chain of thought for complex reasoning)提高思维链推理能力,使其能处理需要多步推理的问题,突破模型缩放法则(scaling laws)
chatGPT的三段训练法:1)有监督微调SFT,改模型 2)奖励机制(RM)训练,有标注人员对结果打分 3)通过PPO根据奖励模型进行强化学习, chatGPT进行了一些优化以更好地处理用户的输入,包括理解和响应各种类型的查询,如信息查询 ,任务请求、小说式的输入等,对输出生成进行了一些优化以生成更贴近人类的输出,包括使用更复杂的生成策略、生成更长的响应,以及更好的处理模糊或不确定的输入等,chatGPT还进行了一些改进以提高模型的安全性和符合道德规范,
NLP基准测试(关注自然语言推理任务,检验模型是否能够理解句子之间的逻辑关系,例如蕴含、矛盾或无关):MNLI-m(MUtil-genre Natural Language Inference,matched), MNLI-mm(Multi-Genre Natural Language Inference, mismatched ),SNLI(stanford Natural Language Inference) ,SciTail, QNLI(Question Natural Language Inference),RTE(Recognizing textual entailment)
GPT-4:1)多模态模型(不仅支持文本,还支持图像,视频,音频等),2)GPT+ 生态:借助GPT-4能力,依托chatGPT plugin 搭建AIGC应用生态商店(类似APP store) 3) 应用+ GPT:GPT-4已经被应用到多个领域,包括微软office 、Duolingo等 4) 扩展上下文窗口:gpt-4可以通过更多的上下文来完成更复杂的任务,为思维链(Cot)、思维树(tot)等后续工作提供了可能。
存储 -> 统计 -> 学习 在机器学习和深度学习的应用中,文本数据需要转换为数值型数据。one-hot是常用的转换方式,在ont-hot编码(词汇表)中,每个汉字都被表示为一个只有一个元素为1,其他元素全为0的向量,向量的长度等于汉字的总数量,1的位置表示该汉字的索引,one-hot编码优点是简单直观,但当汉字数量非常大时,one-hot编码会占用大量的内存。
representation learning: A review and new Perspectives(论文)
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
-END-
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。