赞
踩
一、group(群卷积)
group(群卷积)的思想最早出现于Alexnet论文:ImageNet Classification with Deep Convolutional Neural Networks,Alex之所以使用群卷积是因为受当时GTX580 GPU现存的限制,不能使用一块GPU训练网络,所以其将网络拆分为两组分别使用1个GPU训练。
如下所示为一个常规的卷积操作
假设输入特征图的channel为Ci,卷积核大小为W*H,输出特征图的channel为Co,那么该卷积层的参数数量为:Ci*W*H*Co
group卷积就是将输入特征图的channels Ci差分为g个组,每组Ci/g个特征图,为保持原有模型不变,那么每一组的卷积核个数为Co/g,那么总的参数个数为
二、group lasso
首先在讲解lasso之前先要阐述一下,lasso的全称是Least Absolute Shrinkage and Selection Operator的缩写,用我蹩脚的英语的翻译就是最小绝对值收缩和选择器,他是一种使用L1正则化的线性回归方法,而使用L2正则化的线性回归方法叫做领回归。
从我翻译的直观理解就是lasso可以使参数的对均值变小(收缩)而且还有参数选择的功能,事实上他确实是有这种功能的(参数稀疏化)。首先说的稀疏化操作我们第一时间想到的应该是向损失函数中添加l0正则化项,但是含有l0正则化项的损失函数是不连续且非凸的难以优化的,但是经过数学证明发现L1是L0的最优近似,而且L1是连续的凸函数。
总体上来说我基本是翻译了一下medium上的一篇文章
含有L1和L2正则化项的代价函数可以写成如下形式:
假设以上公式中的参数都是二维的 ,如下图所示,图中红色部分是为网络的代价函数,而绿色部分为约束条件也就是正则化项的代价函数,其中中心位置的β是最小化代价函数的最优解,L1正则化项是一个菱形区域于网络代价函数橡胶的点也就是说可能的最优解会出现在坐标轴上,会有一个方向上的参数为零,而上升到三维空间中,L1是一个菱形六面体会有更多的参数为零,这是也就起到了参数绝对值收缩以及参数筛选的作用了。
另一个方向理解的化可以从正则化项的倒数以及梯度下降的方面理解:后续待补充
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。