赞
踩
NLP之LLMs:自然语言处理大模型时代各种吊炸天算法概述(Word2Vec→ELMO→Attention→Transformer→GPT/BERT系列)、ELMO/GPT/BERT模型关系梳理之详细攻略
导读:在2017年,Transformer模型问世,其强大的拟合能力迅速应用于各种sequence-to-sequence任务。Transformer模型包括两部分,Encoder用于特征表示,Decoder用于文本生成。它们各司其职,合在一起可以取得很好的效果。
2018年6月,OpenAI的GPT系列就对Transformer Decoder替换RNN作为语言模型的能力进行了探索,提出了GPT-1,当时它只是一个12层单向的Transformer,通过预训练+精调的方式进行训练;
但是,2018年10月,Google的BERT一出来,刷新了11项 NLP 任务的 SOTA,将GPT-1很快就踩在脚下。
接着,2019年2月,改进的GPT-2提出了meta-learning,把所有NLP任务的输入输出进行了整合,全部用文字来表示,其生成性能最强,但NLU领域仍不如BERT;
然后,2020年5月,GPT-3改进了BERT的两个缺点,1750亿的参数,使其性能变得吊炸天。近期,2022年11月,ChatGPT的惊艳表现,标志着对话模型领域又向前跨出了一大步。
自此,大模型江湖厮杀仍在继续……
目录
NLP之LLMs:基于Transformer的三类基础架构及其代表性算法(BERT/RoBERTa/ALBERT/T5、GPT系列、XLNet/T-NLG)之详细攻略
NLP之NNLM:NNLM神经语言模型算法(词向量法的始祖)的简介、网络结构、案例应用、代码实现之详细攻略
NLP:word embedding词嵌入/word2vec词向量方法(一种主流的分布式表示)的简介、使用方法、案例应用之详细攻略
NLP之ELMO:ELMO模型的概述、结构(预训练过程、推理过程)之详细攻略
DL之self-attention:self-attention自注意力机制的简介(背景、特点、改进对比、传统对比、关系、应用,适合长距离捕获分析)、计算过程(八大步骤)、案例应用之详细攻略
NLP之Transformer:Transformer的简介(优缺点/架构详解,基于Transformer的系列架构对比分析)、使用方法(NLP领域/CV领域)、案例应用之详细攻略
GPT模型的概述—GPT系列(GPT-1/GPT-2/GPT-3)
NLP之GPT-1/GPT-2:GPT-1的概述(简介、原理、意义、结构、创新点、优缺点、数据集)、为何单向Transfo、模型结构、训练过程,GPT-2的概述(大数据、大模型、灵感点)之详细攻略
NLP之GPT-3:NLP领域没有最强,只有更强的模型—GPT-3的简介(本质、核心思想、意义、特点、优缺点、数据集、实际价值,模型强弱体现,开源探讨,GPT系列对比与总结)、安装、使用方法之详细攻略
AIGC:ChatGPT(一个里程碑式的对话聊天机器人)的简介(意义/功能/核心技术等)、使用方法(七类任务)、案例应用(提问基础性/事实性/逻辑性/创造性/开放性的问题以及编程相关)之详细攻略
NLP之BERT:BERT的简介(背景、改进点、创新点、简介、意义、原理、优缺点、总结与评价)、模型结构、训练过程(MLM、NSP任务的概述)之详细攻略
(2)、BERT与Word2Vec→ELMO→GPT之间的图结构转换
https://yunyaniu.blog.csdn.net/article/details/131098969
https://yunyaniu.blog.csdn.net/article/details/128795552
https://yunyaniu.blog.csdn.net/article/details/128262908
https://yunyaniu.blog.csdn.net/article/details/128795366
https://yunyaniu.blog.csdn.net/article/details/83187158
https://yunyaniu.blog.csdn.net/article/details/100108045
https://yunyaniu.blog.csdn.net/article/details/123172991
https://yunyaniu.blog.csdn.net/article/details/80468713
https://yunyaniu.blog.csdn.net/article/details/107897654
https://yunyaniu.blog.csdn.net/article/details/128229941
https://yunyaniu.blog.csdn.net/article/details/104987840
算法 | 特征抽取器类型 | 预测中间词的模型结构不同 |
ELMO | LSTM | ELMO采用双向LSTM结构:因为各个LSTM结构之间是互相独立的,所以可以根据上下文预测中间词; |
GPT | Transformer | GPT采用了单向的Transformer:GPT在做另一个任务:根据上文预测下一个单词时,要求Pre-Training预测下一个词时,只能够看见当前以及之前的词,这也使得GPT不得不放弃原本Transformer的双向结构,转而采用单向结构的原因。此举从而也就决定了GPT只能根据上文预测下一个单词; |
BERT | Transformer | BERT采用了双向的Transformer:所以并没有像GPT一样完全放弃下文信息。 BERT综合了ELMO的双向优势与GPT的Transformer的特征提取优势: |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。