当前位置:   article > 正文

深度学习论文: GhostNetV2: Enhance Cheap Operation with Long-Range Attention及其PyTorch实现

ghostnetv2: enhance cheap operation with long-range attention

深度学习论文: GhostNetV2: Enhance Cheap Operation with Long-Range Attention及其PyTorch实现
GhostNetV2: Enhance Cheap Operation with Long-Range Attention
PDF: https://arxiv.org/pdf/2211.12905.pdf
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

在本文中,作者提出了一种适用于硬件的注意力机制(称为DFC注意力),并提出了一种适用于移动应用的全新GhostNetV2架构。所提出的DFC注意力是基于全连接层构建的,它不仅可以在常见硬件上快速执行,还能够捕捉长距离像素之间的依赖关系。作者进一步重新审视了先前GhostNet中的表达能力瓶颈,并提出了使用DFC注意力增强廉价操作产生的扩展特征,从而使GhostNetV2块可以同时聚合局部和长距离信息。
在这里插入图片描述

2 GhostNetV2

2-1 GhostNet

可以参考 轻量级网络论文:GhostNet: More Features from Cheap Operations及PyTorch其实现

1 GhostNet: More Features from Cheap Operations 适用于 CPU 和 ARM 端的 GhostNet (CVPR 2020 Oral)
2 GhostNets on Heterogeneous Devices via Cheap Operations 适用于 GPU 和 NPU 端(IJCV 2022)

2-2 DFC Attention

如何设计一种针对端侧架构的 attention,一个预期的注意力机制应该具有以下特性:

  • 长距离: 注意力机制应该遵循原始的 Self-attention,具有捕捉长程空间信息的能力,以增强其表征能力。在一些轻量级的 CNN (例如 MobileNet,GhostNet) 中通常采用小卷积滤波器以节省计算成本,这就导致它们这样的能力偏弱。
  • 高效率部署: 注意力模块应该高效,以避免拉低整体模型的推理速度。FLOPs 很高的,或者对于硬件不友好的操作的不可取。
  • 简单: 为了保持模型在不同任务上的通用性,注意力模块应该是简单的,没有什么精致的设计。

虽然原始的 Self-attention 可以很好地模拟长程相关性, 但它却不满足高效率部署这一点, 因为其 计算复杂度与图片分辨率呈二次方的关系。本文作者因此希望采用更简单, 更容易实现的具有固定权重的全连接层 (FC) 生成具有全局感受野的注意力图。

设计的DFC Attention如下:
在这里插入图片描述

相比自注意力机制,具有固定权重的全连接 (FC) 层更简单、更容易实现,也可用于生成具有全局感受野的注意力图。

2-3 GhosetNet V2

Enhancing Ghost module. 将DFC attention插入到轻量化网络GhostNet中可以提升表征能力,从而构建出新型视觉骨干网络 GhostNetV2。为了弥补Ghost 模块建模空间依赖能力的不足,本文将DFC attention和Ghost 模块并联。
在这里插入图片描述

Feature downsampling. 为了减小DFC attention模块所消耗的计算量,本文对DFC这条支路上的特征进行下采样,在更小的特征图上执行一系列变换。

GhostV2 bottleneck. 对一个逆bottleneck结构而言,增强“expressiveness”(bottleneck中间层)比“capacity”(bottleneck输出层)更加有效,因此在GhostNetV2只对中间特征做了增强。
在这里插入图片描述

3 Experiments

ImageNet:
在这里插入图片描述
COCO:
在这里插入图片描述

ADE20K:
在这里插入图片描述

斯坦福CS324「大语言模型 (LLM)」
https://stanford-cs324.github.io/winter2022/
语言模型的规模在快速增长,这不仅带来了全新的模型能力,对社会发展也产生了重大影响,而且也带来了可靠性不高、社会偏见、产生语气攻击、生成虚假信息等诸多风险。

CS324 - Large Language Models 是斯坦福 Winter 2022 的新课程,系统讲解了大语言模型的原理和开发,并深入探讨了上方的话题。通过这门课程的学习,学生可以对大型语言模型有全面的了解,掌握技术细节,并能对语言模型进行批判性思考。

Introduction

▢ AI定义:让机器具有与人类相似的智能功能

▢ 语言具有创造力、组合性和交流性等特点

▢ NLP发展历程:规则方法、统计方法、神经方法

▢ 神经网络崛起:计算能力提升,大规模标注数据

▢ 词向量捕获语义信息,seq2seq模型实现端到端学习

▢ 基础模型:可微、可优化的大规模预训练模型,适用于下游任务

▢ GPT-3示范基础模型的潜力:通过提示完成各种下游任务

Capabilities

▢ 语言模型任务:预测文本的联合概率或下一个词

▢ GPT-3在Penn Treebank语言建模任务上优于SOTA

▢ GPT-3在LAMBADA长距离依赖语言建模任务上也优于SOTA

▢ GPT-3在HellaSwag常识推理任务上接近SOTA

▢ 在问答任务上,GPT-3零样本表现不佳,少样本效果更好

▢ GPT-3零样本机器翻译质量不高,少样本可达到SOTA

▢ GPT-3可用于简单算术问题,但不“理解”数学

▢ GPT-3可生成几乎无法区分的新闻文章

▢ GPT-3可适应新词使用和纠正语法错误等新任务

Harms I

▢ 定义AI:智能因子、代理的集合

▢ AI安全关键问题:价值观对齐、 interruptibility、透明度

▢ 价值观对齐:使AI行为符合人类价值观

▢ 可中断性:人类可随时停止/修改AI系统

▢ 透明度:人类可理解AI决策过程

▢ 狭义AI:专注特定任务,更易控制

▢ 强AI目标:具有人类水平跨领域智能

▢ 具体做法:强化学习、规范、监督

Harms II

▢ 性能差异:不同人群的准确率存在差异

▢ 社会偏见:生成文本带有刻板成见

▢ 引起伤害:生成攻击性内容

▢ 造假信息:生成误导性内容

▢ 内容审核:平衡言论自由和安全

▢ 缓解危害:数据处理、模型设计、部署监管

Data

▢ 数据获取:Common Crawl、社交媒体

▢ 数据处理:去重、分词、清洗

▢ 数据标注:Mechanical Turk、竞赛

▢ 弱监督:无标注数据的监督信号

▢ 自监督:从数据中自动构建监督信号

▢ 数据质量:覆盖范围、样本大小、注释质量

▢ 数据偏差:历史数据中的社会偏见

▢ 隐私:个人敏感信息泄露

▢ 版权:未经授权使用受版权保护数据

Security

▢ 模型逆向:从模型输出推断训练数据

▢ 成员推断:判断样本是否在训练数据中

▢ 数据提取:从模型内提取训练数据

▢ 毒化攻击:注入对模型产生不利影响的数据

▢ 欺骗攻击:对测试样本做微小变化来欺骗模型

▢ 后门攻击:使模型对特定触发输入产生错误输出

▢ 对抗防御:鲁棒性训练、差分隐私等方法

Legality

▢ 版权法:规定数据使用权利义务

▢ 合理使用:允许未经授权有限使用版权作品

▢ 隐私法:规定个人信息使用权利义务

▢ 其他法律:规范AI系统应用和部署

▢ 伦理规范:行业和组织自律守则

Modeling

▢ 分词:将文本切分为词单元

▢ 编码器:生成文本表示,适用于分类

▢ 解码器:顺序生成文本,适用于生成

▢ 编解码器:编码输入并解码输出

▢ 注意力:软查询表,实现全局依赖

▢ Transformer:编码器解码器统一架构

▢ 位置编码:表示词在序列中的位置

Training

▢ 语言模型损失:最大化联合概率或交叉熵

▢ 预训练目标:遮蔽语言模型、下一句预测等

▢ 优化算法:SGD、Adam、mixed precision

▢ 学习率:warmup和降低学习率

▢ 正则化:dropout、weight decay

▢ 初始化:控制参数尺度,增加模型可训练性

Parallelism

▢ 数据并行:数据划分到不同计算节点

▢ 模型并行:模型划分到不同计算节点

▢ 流水线并行:不同模块串行计算

▢ 参数服务器:跨节点共享参数

▢ 分布式训练:协同高效地完成预训练

Scaling laws

▢ 模型规模:随着参数量增加,性能提升

▢ 数据规模:随着训练数据增多,性能提升

▢ 计算规模:随着FLOPs增加,性能提升

▢ 递减收益:扩展规模带来的收益递减

▢ 外推预测:预估未来性能提升趋势

▢ 建模规模法则:数学公式描述规模与性能关系

Selective architectures

▢ 混合专家:根据输入激活部分专家

▢ 稀疏混合专家:每个样本只使用少量专家

▢ Switch Transformer:每个样本只使用一个专家

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/461061
推荐阅读
相关标签
  

闽ICP备14008679号