当前位置:   article > 正文

GhostNet原理解析及pytorch实现

ghostnet

论文:https://arxiv.org/abs/1911.11907

源码:https://github.com/huawei-noah/ghostnet

简要论述GhostNet的核心内容。

Ghost Net

1、Introduction

在训练良好的深度神经网络的特征图中,丰富甚至冗余的信息通常保证了对输入数据的全面理解。

上图是ResNet-50中第一个残差组生成的一些特征图的可视化,其中三个相似的特征图对样例用相同颜色的方框标注。其中存在许多相似的特征图对,就像一个幽灵一样。其中一个特征映射可以通过简单的操作(用扳手表示)对另一个特征映射进行变换近似得到。

作者认为特征映射中的冗余是一个成功的深度神经网络的重要特征,而不是避免冗余的特征映射,更倾向于采用它们,但以一种经济有效的方式。

怎么以很小的代价生成许多能从原始特征发掘所需信息的幽灵特征图呢?这个便是整篇论文的核心思想。

2、Approach

主流CNN计算的中间特征映射存在广泛的冗余,比如上面的ResNet-50,依此提出了可以减少它所需的资源。

上面所对比的就是输出相同特征映射的卷积层与Ghost模块的对比,这里的\Phi表示的就是"很小的代价"。

Ghost模块的原理就是先进行Conv操作生成一些特征图,然后经过cheat生成一系列的冗余特征图,最后将Conv生成的特征图与cheap操作生成的特征图进行concat操作。

现有方法采用点向卷积跨通道处理特征,再采用深度卷积处理空间信息。相比之下,Ghost模块采用普通卷积先生成一些固有的特征映射,然后利用便宜的线性运算来增加特征和增加通道。而在以前的高效架构中,处理每个特征映射的操作仅限于深度卷积或移位操作,而Ghost模块中的线性操作具有较大的多样性。

3、GhostNet

Ghost bottleneck

上图是步幅分别为1和2的Ghost bottleneck,这个结构看起来很眼熟,很像是resnet里面的残差模块。

  • 左侧的G-bneck主要由两个堆叠的ghost模块组成,它的作用是作为扩展层增加通道的数量。
  • 右侧的G-bneck减少了通道的数量以匹配快捷路径。批归一化和ReLU非线性在每一层之后应用,但MobileNetV2建议在第二个Ghost模块之后不使用ReLU。

网络结构

G-bneck表示Ghost bottleneck。#exp表示扩展大小。#out表示输出通道的数量。SE表示是否使用SE模块。

这里的G-bneck适用于stride=1。对于stride=2的情况,快捷路径由下采样层实现,并在两个Ghost模块之间插入stride=2的深度卷积。在实践中,Ghost模块的主要卷积是点卷积,因为它的效率很高。

4、pytorch实现

  1. """
  2. Creates a GhostNet Model as defined in:
  3. GhostNet: More Features from Cheap Operations By Kai Han, Yunhe Wang, Qi Tian, Jianyuan Guo, Chunjing Xu, Chang Xu.
  4. <https://arxiv.org/abs/1911.11907>
  5. """
  6. import torch
  7. import torch.nn as nn
  8. import torch.nn.functional as F
  9. import math
  10. __all__ = ["ghostnet"]
  11. def _make_divisible(v, divisor, min_value=None):
  12. """
  13. 此函数取自TensorFlow代码库.它确保所有层都有一个可被8整除的通道编号
  14. 在这里可以看到:
  15. https://github.com/tensorflow/models/blob/master/research/slim/nets/mobilenet/mobilenet.py
  16. 通过四舍五入和增加修正,确保通道编号是可被 divisor 整除的最接近的值,并且保证结果不小于指定的最小值。
  17. """
  18. if min_value is None:
  19. min_value = divisor
  20. new_v = max(min_value, int(v + divisor / 2) // divisor * divisor)
  21. # 确保四舍五入的下降幅度不超过10%.
  22. if new_v < 0.9 * v:
  23. new_v += divisor
  24. return new_v
  25. def hard_sigmoid(x, inplace: bool = False):
  26. """
  27. 实现硬切线函数(hard sigmoid)的函数。
  28. Args:
  29. x: 输入张量,可以是任意形状的张量。
  30. inplace: 是否原地操作(in-place operation)。默认为 False。
  31. Returns:
  32. 处理后的张量,形状与输入张量相同。
  33. 注意:
  34. ReLU6 函数是一个将小于 0 的值设为 0,大于 6 的值设为 6 的函数。
  35. clamp_ 方法用于限制张量的取值范围。
  36. """
  37. if inplace:
  38. return x.add_(3.).clamp_(0., 6.).div_(6.)
  39. else:
  40. return F.relu6(x + 3.) / 6.
  41. class SqueezeExcite(nn.Module):
  42. def __init__(self, in_chs, se_ratio=0.25, reduced_base_chs=None,
  43. act_layer=nn.ReLU, gate_fn=hard_sigmoid, divisor=4, **_):
  44. super(SqueezeExcite, self).__init__()
  45. self.gate_fn = gate_fn
  46. reduced_chs = _make_divisible((reduced_base_chs or in_chs) * se_ratio, divisor)
  47. self.avg_pool = nn.AdaptiveAvgPool2d(1)
  48. self.conv_reduce = nn.Conv2d(in_chs, reduced_chs, 1, bias=True)
  49. self.act1 = act_layer(inplace=True)
  50. self.conv_expand = nn.Conv2d(reduced_chs, in_chs, 1, bias=True)
  51. def forward(self, x):
  52. x_se = self.avg_pool(x)
  53. x_se = self.conv_reduce(x_se)
  54. x_se = self.act1(x_se)
  55. x_se = self.conv_expand(x_se)
  56. x = x * self.gate_fn(x_se)
  57. return x
  58. class ConvBnAct(nn.Module):
  59. def __init__(self, in_chs, out_chs, kernel_size,
  60. stride=1, padding=0 ,act_layer=nn.ReLU):
  61. super(ConvBnAct, self).__init__()
  62. self.conv = nn.Conv2d(in_chs, out_chs, kernel_size, stride, padding, bias=False)
  63. self.bn1 = nn.BatchNorm2d(out_chs)
  64. self.act1 = act_layer(inplace=True)
  65. def forward(self, x):
  66. x = self.conv(x)
  67. x = self.bn1(x)
  68. x = self.act1(x)
  69. return x
  70. class GhostModule(nn.Module):
  71. def __init__(self, inp, oup, kernel_size=1, ratio=2, dw_size=3, stride=1, relu=True):
  72. super(GhostModule, self).__init__()
  73. self.oup = oup
  74. init_channels = math.ceil(oup / ratio) # m = n / s
  75. new_channels = init_channels*(ratio-1) # m * (s - 1) = n / s * (s - 1)
  76. self.primary_conv = nn.Sequential(
  77. nn.Conv2d(inp, init_channels, kernel_size, stride, kernel_size//2, bias=False),
  78. nn.BatchNorm2d(init_channels),
  79. nn.ReLU(inplace=True) if relu else nn.Sequential(),
  80. )
  81. self.cheap_operation = nn.Sequential(
  82. nn.Conv2d(init_channels, new_channels, dw_size, 1, dw_size//2, groups=init_channels, bias=False),
  83. nn.BatchNorm2d(new_channels),
  84. nn.ReLU(inplace=True) if relu else nn.Sequential(),
  85. )
  86. def forward(self, x):
  87. x1 = self.primary_conv(x)
  88. x2 = self.cheap_operation(x1)
  89. out = torch.cat([x1,x2], dim=1)
  90. return out[:,:self.oup,:,:]
  91. class GhostBottleneck(nn.Module):
  92. """ Ghost bottleneck w/ optional SE"""
  93. def __init__(self, in_chs, mid_chs, out_chs, dw_kernel_size=3,
  94. stride=1, act_layer=nn.ReLU, se_ratio=0.):
  95. super(GhostBottleneck, self).__init__()
  96. has_se = se_ratio is not None and se_ratio > 0.
  97. self.stride = stride
  98. # Point-wise expansion
  99. self.ghost1 = GhostModule(in_chs, mid_chs, relu=True)
  100. # Depth-wise convolution
  101. if self.stride > 1:
  102. self.conv_dw = nn.Conv2d(mid_chs, mid_chs, dw_kernel_size, stride=stride,
  103. padding=(dw_kernel_size-1)//2,
  104. groups=mid_chs, bias=False)
  105. self.bn_dw = nn.BatchNorm2d(mid_chs)
  106. # Squeeze-and-excitation
  107. if has_se:
  108. self.se = SqueezeExcite(mid_chs, se_ratio=se_ratio)
  109. else:
  110. self.se = None
  111. # Point-wise linear projection
  112. self.ghost2 = GhostModule(mid_chs, out_chs, relu=False)
  113. # shortcut
  114. if (in_chs == out_chs and self.stride == 1):
  115. self.shortcut = nn.Sequential()
  116. else:
  117. self.shortcut = nn.Sequential(
  118. nn.Conv2d(in_chs, in_chs, dw_kernel_size, stride=stride,
  119. padding=(dw_kernel_size-1)//2, groups=in_chs, bias=False),
  120. nn.BatchNorm2d(in_chs),
  121. nn.Conv2d(in_chs, out_chs, 1, stride=1, padding=0, bias=False),
  122. nn.BatchNorm2d(out_chs),
  123. )
  124. def forward(self, x):
  125. residual = x
  126. # 1st ghost bottleneck
  127. x = self.ghost1(x)
  128. # Depth-wise convolution
  129. if self.stride > 1:
  130. x = self.conv_dw(x)
  131. x = self.bn_dw(x)
  132. # Squeeze-and-excitation
  133. if self.se is not None:
  134. x = self.se(x)
  135. # 2nd ghost bottleneck
  136. x = self.ghost2(x)
  137. x += self.shortcut(residual)
  138. return x
  139. class GhostNet(nn.Module):
  140. def __init__(self, cfgs, num_classes=1000, width=1.0, dropout=0.2):
  141. super(GhostNet, self).__init__()
  142. # setting of inverted residual blocks
  143. self.cfgs = cfgs
  144. self.dropout = dropout
  145. # building first layer
  146. output_channel = _make_divisible(16 * width, 4)
  147. self.conv_stem = nn.Conv2d(3, output_channel, 3, 2, 1, bias=False)
  148. self.bn1 = nn.BatchNorm2d(output_channel)
  149. self.act1 = nn.ReLU(inplace=True)
  150. input_channel = output_channel
  151. # building inverted residual blocks
  152. stages = []
  153. block = GhostBottleneck
  154. for cfg in self.cfgs:
  155. layers = []
  156. for k, exp_size, c, se_ratio, s in cfg:
  157. output_channel = _make_divisible(c * width, 4)
  158. hidden_channel = _make_divisible(exp_size * width, 4)
  159. layers.append(block(input_channel, hidden_channel, output_channel, k, s,
  160. se_ratio=se_ratio))
  161. input_channel = output_channel
  162. stages.append(nn.Sequential(*layers))
  163. output_channel = _make_divisible(exp_size * width, 4)
  164. stages.append(nn.Sequential(ConvBnAct(input_channel, output_channel, 1)))
  165. input_channel = output_channel
  166. self.blocks = nn.Sequential(*stages)
  167. # building last several layers
  168. output_channel = 1280
  169. self.global_pool = nn.AdaptiveAvgPool2d((1, 1))
  170. self.conv_head = nn.Conv2d(input_channel, output_channel, 1, 1, 0, bias=True)
  171. self.act2 = nn.ReLU(inplace=True)
  172. self.classifier = nn.Linear(output_channel, num_classes)
  173. def forward(self, x):
  174. x = self.conv_stem(x)
  175. x = self.bn1(x)
  176. x = self.act1(x)
  177. x = self.blocks(x)
  178. x = self.global_pool(x)
  179. x = self.conv_head(x)
  180. x = self.act2(x)
  181. x = x.view(x.size(0), -1)
  182. if self.dropout > 0.:
  183. x = F.dropout(x, p=self.dropout, training=self.training)
  184. x = self.classifier(x)
  185. return x
  186. def ghostnet(**kwargs):
  187. """
  188. Constructs a GhostNet model
  189. """
  190. cfgs = [
  191. # k, t, c, SE, s
  192. # stage1
  193. [[3, 16, 16, 0, 1]],
  194. # stage2
  195. [[3, 48, 24, 0, 2]],
  196. [[3, 72, 24, 0, 1]],
  197. # stage3
  198. [[5, 72, 40, 0.25, 2]],
  199. [[5, 120, 40, 0.25, 1]],
  200. # stage4
  201. [[3, 240, 80, 0, 2]],
  202. [[3, 200, 80, 0, 1],
  203. [3, 184, 80, 0, 1],
  204. [3, 184, 80, 0, 1],
  205. [3, 480, 112, 0.25, 1],
  206. [3, 672, 112, 0.25, 1]
  207. ],
  208. # stage5
  209. [[5, 672, 160, 0.25, 2]],
  210. [[5, 960, 160, 0, 1],
  211. [5, 960, 160, 0.25, 1],
  212. [5, 960, 160, 0, 1],
  213. [5, 960, 160, 0.25, 1]
  214. ]
  215. ]
  216. return GhostNet(cfgs, **kwargs)
  217. if __name__=='__main__':
  218. model = ghostnet()
  219. model.eval()
  220. print(model)
  221. input = torch.randn(32,3,320,256)
  222. y = model(input)
  223. print(y.size())

参考文章

CVPR 2020:华为GhostNet,超越谷歌MobileNet,已开源 - 知乎 (zhihu.com)

GhostNet网络详解_ghostnet网络结构-CSDN博客

GHostNet网络最通俗易懂的解读【不接受反驳】_ghost卷积_☞源仔的博客-CSDN博客

GhostNet 详解_ghostnet是什么-CSDN博客

GhostNet详解及代码实现_ghostnet代码_何如千泷的博客-CSDN博客

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/806797
推荐阅读
相关标签
  

闽ICP备14008679号