赞
踩
一. Pre-training & Fine - tuning 机制
1.定义
Pre-training: 在大规模数据集上学习尽可能好的通用表示
Fine-tuning : 利用学习好的通用表示初始化下游任务网络
二.预训练模型发展总概
来源:百度NLP
三.预训练模型简介
1. ELMo
Pre-training:
(1)Bi-LSTM (两层/双向(LR, RL))
(2) 无监督训练,训练数据1B Word
(3) 只预训练language model, word embedding 是通过输入的句子实时输出
Fine- tuning
1.Feature -Based
缺点:
1)不完全双向预训练: 前后向LSTM是分开训练的,仅在loss function阶段结合
2) 每种下游任务都要重新设计网络结构
3) pre-training阶段进学习了语言模型,无句向量学习任务
2.GPT
Pre-training:
(1)model: Transformer
(2) 训练数据1B Word &BooksCorpus(+0.8 billion)
(3) Pretraining 阶段的目标是:根据前几个字预测下一个字(自回归预训练/无马尔科夫假设)
(4) 支持大规模数据下的自监督学习
Fine-tuning:
(1)Model-Based
优缺点:
(1) 优点:model-based,简化了任务相关网络结构的设计
(2) 缺点: 单向预训练模型/仅有词向量,无句向量
3.BERT
Pre-training:
(1)model: Transformer
(2) Auto-Encoder 交互式双向语言模型建模
(3) Pre-training :
Fine-tuning:
(1)Model Based
优缺点:
(1) 优点:无交互式双向语言模型建模/ 有句向量
(2) 缺点:sub-word预测可以通过word的局部信息完成,模型缺乏全局建模的信息的动力,难以学到词、短语、实体的完整语义
4.ERINE
百度NLP神器
Pre-training:
(1)model: Transformer
(2) Auto-Encoder 交互式双向语言模型建模
(3) Pre-training :
(4) ERNIE 2.0 : 更多的预训练模型,捕获更丰富的语义知识
Fine-tuning:
(1)Model Based
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。