赞
踩
论文地址: LEDNET: A LIGHTWEIGHT ENCODER-DECODER NETWORK FOR REAL-TIME SEMANTIC SEGMENTATION
论文指出计算机视觉中诸如语义分割等密集预测任务使用CNN,对于计算资源的要求过大,限制了其在移动设备上的应用,为此提出LEDNet,一个包含不对称编解码结构的轻量级的网络用于实时语义分割。其中编码结构采用ResNet作为主干网络,修改残差结构加入通道分类和混洗操作;解码结构中设计了注意力金字塔网络APN来进一步减少网络的计算复杂度吗,最后LEDNet以小于1M的参数量,在1080Ti的显卡上FPS达到71,CityScapes测试集mIoU为70.6%,速度精度权衡方面取得了SOTA效果。
具体地,论文提出的分割网络包含两部分,结构如下图所示,该方法同时关注精度和速度,采用不对成的编解码结构。根据卷积操作分解的原则,编码结构的核心,新型残差块包括跳跃结构和通道分离和混洗,前者使残差结构更容易训练,后者增强了特征通道信息交换能力同时保持较小的计算代价。解码结构中为了提取密集特征,LEDNet采用注意力金字塔网络而不是扩张卷积,其中注意力机制用于预测每一个像素点的标签。
综合来看,论文的贡献在于:
非对称编解码结构降低网络的参数量,加速推理过程
可以允许端到端训练通道分离和混洗,较好的权衡了网络的规模和特征提取能力
注意力机制能够进一步降低网络的复杂度
网络轻量化方法主要分为两类,一种是网络压缩另一种是卷积操作分解。前者旨在通过压缩预训练网络减少推断时所需的计算资源,常见的方法包括哈希化,网络剪枝以及量化,为了进一步消除冗余,根据卷积分解原则CFP,通常还可以将卷积操作分解为组卷积和深度可分离卷积。后者则侧重在以更少的资源训练网络,比如ENet采用ResNet实现高效推断,ICNet提出级联网络进行浅层的标签推导,此外SegNet,ErfNet,EspNet使用对称编解码结构保持精度的同时降低参数量。
轻量级网络模块有以下几种,下图a瓶颈块,b非瓶颈块,c为ShuffleNet模块,虽然点分离卷积应用广泛但是会增加计算复杂度,不利于轻量级模型。
为了在给定计算资源条件下实现精度和速度的权衡,论文在残差模块中引入通道分离和混洗,新模块SS-nbt如下图所示,其利用了分离-转换-合并的思想,首先通道分离,分别使用专用1维滤波器避免点卷积,之后使用逐通道合并将两支融合,add上输入以加速训练,然后进行通道混洗。这样的设计轻量高效,一是能够使用更多的特征通道,二是通道混洗可以视为一种特征复用,不增加复杂度的时候提升网络的能力。
如下表所示,LEDNet使用非对称编解码结构,解码模块对特征图进行下采样,接着解码模块采用APN进行上采样恢复特征图尺寸。除了SS-nbt单元外,编码模块还包括下采样单元,有两个步长为2的 3 × 3 3 \times 3 3×3卷积和一个最大池化组成,使得深层网络捕获更多语义信息。
另外,解码模块应用了注意力机制,设计了注意力金字塔模块,使用空间注意力操作进行密集像素预测,为了扩大但感受野,APN采用集成三个不同尺度的金字塔注意力模块,包括步长为2的 3 × 3 , 5 × 5 , 7 × 7 3 \times 3,5\times 5, 7 \times 7 3×3,5×5,7×7的三个卷积,逐步融合不同尺度的特征信息,而且因为来自浅层的特征图尺寸晓,大核卷积不会造成巨大的计算资源消耗。而且解码模块的输出特征图还会被应用一个 1 × 1 1\times 1 1×1卷积,然后和金字塔注意力模块的特征图筑像素相加。为了进一步提升效果,论文还应用了一个全局平均池化,最终进行上采样。
定性分析-CityScapes验证集
定量分析-CityScapes测试集
LEDNet采用非对称编解码结构,编码模块采用带有通道分离和混洗的残差层,解码模块设计了APN模块减少计算开支,整个网络可以端到端训练。实验结果表明LEDNet在CityScapes上缺德了最好的速度与精度的权衡。论文指出未来的方向是在APN中将标准卷积分解为1维卷积,进一步轻量化并且保持精度。
欢迎扫描二维码关注微信公众号 深度学习与数学 [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。