赞
踩
深度学习论文: GhostNetV2: Enhance Cheap Operation with Long-Range Attention及其PyTorch实现
GhostNetV2: Enhance Cheap Operation with Long-Range Attention
PDF: https://arxiv.org/pdf/2211.12905.pdf
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks
在本文中,作者提出了一种适用于硬件的注意力机制(称为DFC注意力),并提出了一种适用于移动应用的全新GhostNetV2架构。所提出的DFC注意力是基于全连接层构建的,它不仅可以在常见硬件上快速执行,还能够捕捉长距离像素之间的依赖关系。作者进一步重新审视了先前GhostNet中的表达能力瓶颈,并提出了使用DFC注意力增强廉价操作产生的扩展特征,从而使GhostNetV2块可以同时聚合局部和长距离信息。
可以参考 轻量级网络论文:GhostNet: More Features from Cheap Operations及PyTorch其实现
1 GhostNet: More Features from Cheap Operations 适用于 CPU 和 ARM 端的 GhostNet (CVPR 2020 Oral)
2 GhostNets on Heterogeneous Devices via Cheap Operations 适用于 GPU 和 NPU 端(IJCV 2022)
如何设计一种针对端侧架构的 attention,一个预期的注意力机制应该具有以下特性:
虽然原始的 Self-attention 可以很好地模拟长程相关性, 但它却不满足高效率部署这一点, 因为其 计算复杂度与图片分辨率呈二次方的关系。本文作者因此希望采用更简单, 更容易实现的具有固定权重的全连接层 (FC) 生成具有全局感受野的注意力图。
设计的DFC Attention如下:
相比自注意力机制,具有固定权重的全连接 (FC) 层更简单、更容易实现,也可用于生成具有全局感受野的注意力图。
Enhancing Ghost module. 将DFC attention插入到轻量化网络GhostNet中可以提升表征能力,从而构建出新型视觉骨干网络 GhostNetV2。为了弥补Ghost 模块建模空间依赖能力的不足,本文将DFC attention和Ghost 模块并联。
Feature downsampling. 为了减小DFC attention模块所消耗的计算量,本文对DFC这条支路上的特征进行下采样,在更小的特征图上执行一系列变换。
GhostV2 bottleneck. 对一个逆bottleneck结构而言,增强“expressiveness”(bottleneck中间层)比“capacity”(bottleneck输出层)更加有效,因此在GhostNetV2只对中间特征做了增强。
ImageNet:
COCO:
ADE20K:
斯坦福CS324「大语言模型 (LLM)」
https://stanford-cs324.github.io/winter2022/
语言模型的规模在快速增长,这不仅带来了全新的模型能力,对社会发展也产生了重大影响,而且也带来了可靠性不高、社会偏见、产生语气攻击、生成虚假信息等诸多风险。
CS324 - Large Language Models 是斯坦福 Winter 2022 的新课程,系统讲解了大语言模型的原理和开发,并深入探讨了上方的话题。通过这门课程的学习,学生可以对大型语言模型有全面的了解,掌握技术细节,并能对语言模型进行批判性思考。
Introduction
▢ AI定义:让机器具有与人类相似的智能功能
▢ 语言具有创造力、组合性和交流性等特点
▢ NLP发展历程:规则方法、统计方法、神经方法
▢ 神经网络崛起:计算能力提升,大规模标注数据
▢ 词向量捕获语义信息,seq2seq模型实现端到端学习
▢ 基础模型:可微、可优化的大规模预训练模型,适用于下游任务
▢ GPT-3示范基础模型的潜力:通过提示完成各种下游任务
Capabilities
▢ 语言模型任务:预测文本的联合概率或下一个词
▢ GPT-3在Penn Treebank语言建模任务上优于SOTA
▢ GPT-3在LAMBADA长距离依赖语言建模任务上也优于SOTA
▢ GPT-3在HellaSwag常识推理任务上接近SOTA
▢ 在问答任务上,GPT-3零样本表现不佳,少样本效果更好
▢ GPT-3零样本机器翻译质量不高,少样本可达到SOTA
▢ GPT-3可用于简单算术问题,但不“理解”数学
▢ GPT-3可生成几乎无法区分的新闻文章
▢ GPT-3可适应新词使用和纠正语法错误等新任务
Harms I
▢ 定义AI:智能因子、代理的集合
▢ AI安全关键问题:价值观对齐、 interruptibility、透明度
▢ 价值观对齐:使AI行为符合人类价值观
▢ 可中断性:人类可随时停止/修改AI系统
▢ 透明度:人类可理解AI决策过程
▢ 狭义AI:专注特定任务,更易控制
▢ 强AI目标:具有人类水平跨领域智能
▢ 具体做法:强化学习、规范、监督
Harms II
▢ 性能差异:不同人群的准确率存在差异
▢ 社会偏见:生成文本带有刻板成见
▢ 引起伤害:生成攻击性内容
▢ 造假信息:生成误导性内容
▢ 内容审核:平衡言论自由和安全
▢ 缓解危害:数据处理、模型设计、部署监管
Data
▢ 数据获取:Common Crawl、社交媒体
▢ 数据处理:去重、分词、清洗
▢ 数据标注:Mechanical Turk、竞赛
▢ 弱监督:无标注数据的监督信号
▢ 自监督:从数据中自动构建监督信号
▢ 数据质量:覆盖范围、样本大小、注释质量
▢ 数据偏差:历史数据中的社会偏见
▢ 隐私:个人敏感信息泄露
▢ 版权:未经授权使用受版权保护数据
Security
▢ 模型逆向:从模型输出推断训练数据
▢ 成员推断:判断样本是否在训练数据中
▢ 数据提取:从模型内提取训练数据
▢ 毒化攻击:注入对模型产生不利影响的数据
▢ 欺骗攻击:对测试样本做微小变化来欺骗模型
▢ 后门攻击:使模型对特定触发输入产生错误输出
▢ 对抗防御:鲁棒性训练、差分隐私等方法
Legality
▢ 版权法:规定数据使用权利义务
▢ 合理使用:允许未经授权有限使用版权作品
▢ 隐私法:规定个人信息使用权利义务
▢ 其他法律:规范AI系统应用和部署
▢ 伦理规范:行业和组织自律守则
Modeling
▢ 分词:将文本切分为词单元
▢ 编码器:生成文本表示,适用于分类
▢ 解码器:顺序生成文本,适用于生成
▢ 编解码器:编码输入并解码输出
▢ 注意力:软查询表,实现全局依赖
▢ Transformer:编码器解码器统一架构
▢ 位置编码:表示词在序列中的位置
Training
▢ 语言模型损失:最大化联合概率或交叉熵
▢ 预训练目标:遮蔽语言模型、下一句预测等
▢ 优化算法:SGD、Adam、mixed precision
▢ 学习率:warmup和降低学习率
▢ 正则化:dropout、weight decay
▢ 初始化:控制参数尺度,增加模型可训练性
Parallelism
▢ 数据并行:数据划分到不同计算节点
▢ 模型并行:模型划分到不同计算节点
▢ 流水线并行:不同模块串行计算
▢ 参数服务器:跨节点共享参数
▢ 分布式训练:协同高效地完成预训练
Scaling laws
▢ 模型规模:随着参数量增加,性能提升
▢ 数据规模:随着训练数据增多,性能提升
▢ 计算规模:随着FLOPs增加,性能提升
▢ 递减收益:扩展规模带来的收益递减
▢ 外推预测:预估未来性能提升趋势
▢ 建模规模法则:数学公式描述规模与性能关系
Selective architectures
▢ 混合专家:根据输入激活部分专家
▢ 稀疏混合专家:每个样本只使用少量专家
▢ Switch Transformer:每个样本只使用一个专家
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。