当前位置:   article > 正文

预训练模型PTM_ptm模型 ca模型

ptm模型 ca模型


海量文本中没有标记,将没有标记的数让机器和模型自己去学习规律,这个模型就是预训练模型,应用到下游任务中,

自监督学习

区别无监督和有监督学习

图像领域的模型

CNN 去提取图像特征,将特征展开输入到全连接层去

迁移学习和预训练

使用微调来使得数据过少的数据集不过拟合

预训练模型

将之前训练的参数保存,拿到另外一个任务上,根据任务的结果进行微调

预训练模型在CV上

将每一层卷积层进行卷积化,

预训练模型在NLP上

word Embedding :将词转换成计算机处理的向量,
最初是使用One-hot进行,也就是独热变编码,需要的维度大,每一个向量是相互垂直的,没有语义关联。
在这里插入图片描述

word2Vec

就是一个神经网络,输入:独热编码,中间:没有激活函数,线性单元,输出和输入的维度是一样的,用的是softmax回归。

CBOW

将一个词语从一个句子中扣掉,然后根据上下文去预测这个词。标签就是one-hot本身,统计的是词共现的概率。

skip-Gram

输入一个词语,根据这个词预测出上下文。

GloVe(与word2Vec相似的模型)

ELMo

解决同义词问题,根据当前的上下文进行预训练,对词嵌入做预训练。
双层、双向的LSTM,将三层进行加权求和在这里插入图片描述
在这里插入图片描述

局限性

没有用transfrmers,用的是LSTM,和BERT有一定差距,LSTM 没有CNN和transformer快,不能并行计算

GPT 2018

将LSTM换成单向Transformer(2017年提出),是单向的,只用到了上文,将下游任务标准化
下游任务进行微调,引用token,和BERT类似
在这里插入图片描述
现在来说GPT的效果已经很好了,可以自己写文章

缺点

transfoermer是单向的,忽略下文信息。

transformer(自注意力的堆叠)

叠加的自注意义机制,和RNN相比可以进行并行计算,和CNN相比可以进行长距离的特征提取,

在这里插入图片描述
在这里插入图片描述

输入-单词特征

BERT(NLP预训练模型)

双向Transformer,与GPT相比是双向的,下游是怎么应用的?
自从BERT提出之后,预训练就火起来了。任务使用广泛

KG-BERT(知识图谱BERT)

在这里插入图片描述
上述提到的三种架构都用到了word2vec。

ERNIE

百度NLP团队提出,基于BERT,专注中文领域。
随机遮盖短语,BERT是遮盖词语,然后进行预测训练。

ALBERT

将BERT进行精简化,

Roberta

提出更好遮盖方案,加入了span boundary objective 目标,batchn_size增加,使得bert更加健壮

spanbert

BERT电影评论情感分析

使用随机种子使得每次的输出都是固定的
from transformers import BertTokenizer,BertModel

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/393965
推荐阅读
相关标签
  

闽ICP备14008679号