赞
踩
答:不能,会造成训练时无法更新梯度,使训练无法收敛。见:https://zhuanlan.zhihu.com/p/27190255
答:正确。相关知识见:激活函数—Sigmoid、Tanh、ReLu、softplus、softmax
下面哪些方法有助于解决深度网络的梯度消失问题(ACD)
控制网络深度
使用Sigmoid激活函数
预训练+微调
使用ReLU激活函数
见详解深度学习中的梯度消失、爆炸原因及其解决方法
从给定的句子可以产生___9__个二元组短语(Bigram):
「Analytics Vidhya is a great source to learn data science」
二元组短语: Analytics Vidhya, Vidhya is, is a, a great, great source, source to, To learn, learn data, data science
“结婚的和尚未结婚的”会被分词为 “结婚 的 和尚 未 结婚 的“的原因是?
见中文分词概述和规则分词
重要概念: 激活函数:
sigmod和tanh,相同点:
优点:平滑
优点:易于求导
缺点:幂运算相对耗时
缺点:导数值小于 1,反向传播易导致梯度消失(Gradient Vanishing)
sigmod:
优点:可以作为概率,辅助模型解释
缺点:输出值不以零为中心,可能导致模型收敛速度慢
ReLU:
但是它比较好地解决了梯度消失的问题,而且计算速度非常快,只需要判断输入是否大于0,收敛速度远快于sigmoid和tanh。它是比较常用的激活函数。
但是,relu函数也有问题,训练的时候很”脆弱”。例如,一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了,那么这个神经元的梯度就永远都会是 0。如果 learning rate 很大,那么很有可能网络中的 40% 的神经元都”dead”了。
神经网络基础;
梯度消失:详解深度学习中的梯度消失、爆炸原因及其解决方法;
skip-gram和cbow:词向量;
RNN,lstm:循环神经网络;
seq2seq:attention, self-attention: seq2seq;
transformer: transformer
多义词;:从EMLo到Bert
mask:从EMLo到Bert
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。