赞
踩
区别无监督和有监督学习
CNN 去提取图像特征,将特征展开输入到全连接层去
使用微调来使得数据过少的数据集不过拟合
将之前训练的参数保存,拿到另外一个任务上,根据任务的结果进行微调。
将每一层卷积层进行卷积化,
word Embedding :将词转换成计算机处理的向量,
最初是使用One-hot进行,也就是独热变编码,需要的维度大,每一个向量是相互垂直的,没有语义关联。
就是一个神经网络,输入:独热编码,中间:没有激活函数,线性单元,输出和输入的维度是一样的,用的是softmax回归。
将一个词语从一个句子中扣掉,然后根据上下文去预测这个词。标签就是one-hot本身,统计的是词共现的概率。
输入一个词语,根据这个词预测出上下文。
解决同义词问题,根据当前的上下文进行预训练,对词嵌入做预训练。
双层、双向的LSTM,将三层进行加权求和,
没有用transfrmers,用的是LSTM,和BERT有一定差距,LSTM 没有CNN和transformer快,不能并行计算
将LSTM换成单向Transformer(2017年提出),是单向的,只用到了上文,将下游任务标准化
下游任务进行微调,引用token,和BERT类似
现在来说GPT的效果已经很好了,可以自己写文章
transfoermer是单向的,忽略下文信息。
叠加的自注意义机制,和RNN相比可以进行并行计算,和CNN相比可以进行长距离的特征提取,
双向Transformer,与GPT相比是双向的,下游是怎么应用的?
自从BERT提出之后,预训练就火起来了。任务使用广泛。
上述提到的三种架构都用到了word2vec。
百度NLP团队提出,基于BERT,专注中文领域。
随机遮盖短语,BERT是遮盖词语,然后进行预测训练。
将BERT进行精简化,
提出更好遮盖方案,加入了span boundary objective 目标,batchn_size增加,使得bert更加健壮
使用随机种子使得每次的输出都是固定的
from transformers import BertTokenizer,BertModel
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。