赞
踩
reshape的地址没有变(所以b要是改了的话,a也改了),view拷贝了一份。
还是不太理解
亚导数,将导数扩展到不可微的地方
(大概知道它们后面长什么样)
内积比较奇怪orz
一般用分子布局方法
上图的解释:
自己对自己求导得到一个I矩阵,有些公式挺重要的。
还不太懂orz
·计算整个训练数据的梯度太昂贵了
DNN模型需要几分钟到几小时
批量值太大,(内存消耗太大了)浪费计算资源
批量值太小,难以充分利用计算资源
!pip install d2l==0.14.
训练误差:模型在训练数据上的误差
泛化误差:模型在新数据上的误差
验证数据集:可用来调参
测试数据集: 只是能用1次,最终的,不允许再学了,相当于高考了(笑)
一般数据集不够用的话,把70%作为训练数据集,把30%作为测试数据集。对70%的训练数据集可以采取k折交叉验证的方法。
在没有足够多数据时使用(这是常态)
算法:
VC维度的效用
·提供理论解释模型的工作原理
·限制了训练误差和泛化误差之间的差距
在深度学习的实践中很少使用
·边界过于宽松
·难以计算深度神经网络的VC维数
·其他统计学习理论工具也是如此
限不限制b都差不多
这个\lambda使得w往下拉,使得模型的复杂性变低。
解释:每次把W_t的值变小一点点,因为(1-n\lambda,在减一下原本的梯度方向。
一个好的模型需要对输入数据的扰动鲁棒。
推理中的丢弃法
h=dropout(h)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。