赞
踩
线性函数:从输入到输出的映射
损失函数 = 数据损失 + 正则化惩罚项
我们总是希望模型不要太复杂,过拟合的模型是没用的
反向传播
mini-batch 随机梯度下降
随机学习
批学习
神经网络的强大之处在于:用更多的参数来拟合复杂的数据
信息流从输入开始,经过中间计算(即函数映射)生成类别
没有反馈连接(循环网络)
函数结构可以用有向无环图来描述(因此称为前馈网络)
f(1)是第一层,f(2)是第二层,以此类推
深度是函数组合链中最大的i
最后一层称为输出层
只指定输出层的输出
中间层的输出不指定,因此命名为隐藏层
神经:f(i)的选择和层次化结构组织,受到神经科学的启发
设计决策
MLP构成通用分类器
MLP用来连续回归
MLPs构造连续值函数
更一般的
如何学习权值?
应用:检测任务,分类和检索,超分辨率重构,医学任务,无人驾驶,人脸识别
模型结构图
整体架构
卷积层涉及的参数
超参数的设置:卷积核初始化
卷积层引入非线性因素,使其具备解决非线性问题的能力
卷积神经网络与全连接神经网络的区别
卷积核是怎么工作的?
局部连接和权值共享
序列模型
循环神经网络将状态在自身网络中循环传递,可以接受时间序列结构输入
标准神经网络建模的弊端
类型
基础网络结构
时序反向传播算法
RNN缺点:当序列太长时,容易导致梯度消失,参数更新只能捕捉到局部依赖关系,没法再捕捉序列之间的长期关联或者依赖关系
梯度消失和梯度爆炸
由于RNN当中也存在链式求导规则,并且其中序列的长度位置,所以
最早应用于文本,是RNN的一个升级
思路
原理
相较于LSTM,GRU有相当效果,但是更易于计算
在计算当前时刻的隐藏状态时,它会首先计算一个候选隐藏状态,而在计算候选隐藏状态时,会考虑重置门的取值
每个隐藏单元都有单独的重置门和更新门
比较
编码层
多头注意力
残差
层归一化
前馈神经网络
解码器比编码器多了
训练时解码器的输入是要预测的序列
遮盖的多头注意力层:masked multi-head attention
遮盖的意义是为了将未来信息掩盖住,使得训练出来的模型更准确
交互注意力层:multi-head attention
解码器中的交互注意力层与编码器中的注意力层唯一区别在于,前者计算query向量的输入是解码器的输出,解码器的注意力层实际上被称为自注意力层
BERT分为预训练和微调
预训练简单来说就是通过两个联合训练任务得到BERT模型,而微调就是在预训练得到BERT模型基础上进行各种各样的NLP任务
预训练:MLM + NSP
输入经BERT Encoder层编码后,进行MLM和NSP任务,产生一个联合训练的损失函数,从而迭代更新整个模型中的参数
BERT Encoder
MLM(掩码语言模型:掩盖句子中若干个词通过周围词去预测被遮盖的词)
NSP(下一个句子预测:判断句子B在文章是否属于句子A的下一个句子)
训练过程
FINE TUNE
BERT ENCODER
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。