搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
从前慢现在也慢
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
CSS 颜色代码_css浅蓝色
2
shardingsphere 集成springboot【水平分表】
3
Android WebView调用系统相册和相机,注入以及与H5的交互_webview 增加打开相机相册交互
4
有关windows10修改C盘用户中文名文件夹相关问题的具体解决方案_win10修改c盘下用户的文件夹名会出问题吗
5
关于UE4打包问题_编译模式_实例1_ue4打包后效果不一样
6
uniapp+vue微信小程序的 健身房预约系统_uniapp 热量数据
7
OpenSSL/GMSSL EVP接口说明——3.5 加密解密_evp_pkey_ctx_set_ec_sign_type( pkctx, nid_sm_schem
8
2023最新玩客云刷机armbian,部署docker并配置各种常用容器镜像_玩客云 armbian
9
Unity接入Steam平台详细流程一_steammanager获取名字
10
十五、进程&线程&协程_pool.map 怎么等待主线程执行完
当前位置:
article
> 正文
【Transformer论文】CMKD:用于音频分类的基于 CNN/Transformer 的跨模型知识蒸馏_cmkd: cnn/transformer-based cross-model knowledge
作者:从前慢现在也慢 | 2024-02-18 07:54:12
赞
踩
cmkd: cnn/transformer-based cross-model knowledge distillation for audio cla
文献题目:CMKD: CNN/Transformer-Based Cross-Model
Knowledge Distillation for Audio Classification
文献时间:2022
摘要
音频分类是一个活跃的研究领域,具有广泛的应用。 在过去十年中,卷积神经网络 (CNN) 已成为端到端音频分类模型的事实上的标准构建块。 最近,仅基于自注意力机制(如音频频谱图Transformer (AST))的神经网络已被证明优于 CNN。 在本文中,我们发现了两个非常不同的模型之间的有趣交互——CNN 和 AST 模型是彼此的好老师。 当我们使用其中任何一个作为教师并通过知识蒸馏(KD)将另一个模型训练为学生时,学生模型的性能显着提高,并且在许多情况下优于教师模型。 在我们使用这种 CNN/Transformer 跨模型知识蒸馏 (CMKD) 方法的实验中,我们在 FSD50K、AudioSet 和 ESC-50 上实现了新的最先进的性能
引言
音频分类旨在识别给定音频记录中发生的声音事件,并使各种基于人工智能的系统能够消除声音的歧义并了解声学环境。历史上,手工制作的特征和隐马尔可夫模型(HMM)被用于音频分类[1]、[2]、[3]。随着过去十年神经网络的兴起,卷积神经网络 (CNN) [4] 已成为端到端音频分类模型的事实上的标准构建块,旨在学习直接映射从音频波形或频谱图到相应的标签 [5]、[6]、[7]、[8]、[9]、[10]。最近,纯粹基于自注意力的神经网络,例如音频频谱图转换器 (AST) [11]、[12]、[13],已被证明在各种音频上进一步优于使用卷积神经网络构建的深度学习模型分类任务,从而将 Transformers 的成功从自然语言处理 [14]、[15] 和计算机视觉 [16]、[17] 扩展到音频领域。
CNN 和 Transformer 模型都有各自的优势。 例如,CNN 模型具有一些内置的归纳偏差,例如空间局部性和平移等效性,使其非常适合基于频谱图的端到端音频分类。 Transformer 模型没有这种内置的归纳偏差,并且以更加数据驱动的方式学习,使其更加灵活。 因此,CNN 和 Transformer 模型学习的表示明显不同 [18]。 另一方面,虽然 Transformer 模型表现更好,但由于其
O ( n 2 ) O(n^2)
O
(
n
2
)
复杂度,它们在长音频输入上的计算效率低于 CNN 模型。
在本文中,我们展示了两个非常不同的模型之间的有趣交互——CNN 和 AST 模型是彼此的好老师。当我们使用一个模型作为教师并通过知识蒸馏(KD)训练另一个模型作为学生时,学生模型的性能明显提高,并且在大多数情况下优于教师模型。我们将 CNN 和 Transformer 模型之间的这种知识蒸馏框架称为跨模型知识蒸馏(CMKD)。跨模型知识蒸馏的成功并非微不足道,因为
跨模型知识蒸馏在 CNN→Transformer 和 Transformer→CNN 两个方向上双向工作。通常在 KD 中,老师需要比学生更强,但是对于跨模型的知识蒸馏,弱的老师仍然可以提高学生的表现。
2)对于两个方向,学生在知识蒸馏后都优于老师,即使老师本来就更强大。
3)同一类的两个模型之间的KD导致性能提升小得多或没有提升。因此,通过提出的跨模型知识蒸馏,具有均值池的简单 EfficientNet KD-CNN 模型在 FSD50K 和 ESC50 数据集上优于更大的 AST 模型。相反,KD-AST 模型在 FSD50K、AudioSet 和 ESC50 数据集上实现了最新的性能。
本文的贡献有三个:第一,据我们所知,我们是第一个探索 CNN 和 Transformer 模型之间的双向知识蒸馏的人;之前的努力 [17]、[19] 仅研究 CNN→Transformer 方向,并在视觉领域进行。其次,我们对标准音频分类数据集进行了广泛的实验,并找到了最佳的知识蒸馏设置。此外,我们进行了一系列探测测试和消融研究,以探索跨模型知识蒸馏的工作机制。第三,由于提出的跨模型 KD 框架,小型高效的 CNN 模型匹配或优于以前的最先进模型; AST 模型在 FSD50K、AudioSet 和 ESC50 上实现了更好的性能并取得了新的最先进的结果。我们还在各种 CNN、CNN-attention 和 Transformer 模型上评估 CMKD,发现它提高了所有这些模型的性能,表明 CMKD 是一种通用方法——所有类型的模型都可以从 CMKD 中受益。
跨模型知识蒸馏
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/106277
推荐阅读
article
Unity
点
乘
(
Dot
)、叉
乘
(
Cross
)判断
移动
方向、朝向等向量问题_
unity
dot...
Unity
点
乘
(
Dot
)、叉
乘
(
Cross
)判断
移动
方向、朝向等向量问题项目中常会用到物体
移动
,追踪,判断两物体
移动
方...
赞
踩
article
深度
学习
文本
分类
文献综述(翻译自
Deep
Learning
Based
Text
Classific...
深度
学习
文本
分类
文献综述摘要介绍1.
文本
分类
任务2.
文本
分类
中的
深度
模型2.1 Feed-Forward Neural...
赞
踩
article
Transformer
相关的各种预训练
模型
优点缺点对比总结与资料收集(
Transformer
/Ber...
文章目录1、Transfomer基础资料基本结构single attention和 multiHead attentio...
赞
踩
article
【
NLP
】第7章
使用
GPT
-
3
引擎的Suprahuman Transformers的崛起_gp...
(2020) 描述了 OpenAI
GPT
-
3
模型的训练,该模型包含 1750 亿个参数,这些参数
使用
巨大的数据集学习...
赞
踩
article
深入理解深度学习——
GPT
(
Generative
Pre-
Trained
Transformer
):...
GPT
-3曾经是最大、最让人惊艳也是最具争议的预训练语言模型。介绍
GPT
-3的论文长达72页,包括模型设计思路、理论推导...
赞
踩
article
ChatGPT3
Transformer
的多模态全能
语言
模型
...
研究人员正在不断改进这些
模型
的性能,并探索它们在各种应用中的潜在用途,如视觉问答、多模态翻译、多模态推理等。然而,这一领...
赞
踩
article
<<视觉问答AAAI>>2022:An Empirical Study of
GPT
-3
for
F...
(
VQA
)是指模型不仅需要图像的视觉信息和问题的语义信息,还需要图像中的对象所蕴含的外部知识才能够正确的回答问题,例如模...
赞
踩
article
Score
-
based
diffusion models for accelerated
MRI
_基...
近年来,磁共振成像(
MRI
)的亚采样测量重建方法取得了很大进展。正则化重建方法利用手工制作的先验数据的稀疏性以及数...
赞
踩
article
点云 3D 目标检测 -
Center
Point:
Center
-
based
3D Object De...
三维目标通常表示为点云中的三维长方体。这种表示模拟了经过充分研究的基于图像的2D边界框检测,但存在额外的挑战。三维世界中...
赞
踩
article
使用快速
傅里叶
变换
(FFT)进行
归一化
相关(
Normalized
C
ross-
C
orrelation...
归一化
相关(
Normalized
C
ross-
C
orrelation)是一种常用的信号处理技术,用于在两个信号之间寻找相...
赞
踩
article
【
人工智能
】
LLM
大型语言
模型
和
Transformer
架构简介_
transformer
模型
和l...
然而,传统的机器学习
模型
,例如神经网络,并不能天生理解输入的顺序。通过将位置编码纳入
Transformer
架构,GP...
赞
踩
article
详解
KITTI
视觉
3D
检测
模型
CMKD
: Cross-Modality
Knowledge
Dist...
论文收录于。_cmkdcmkd 本文介绍一篇激光雷达监督视觉传...
赞
踩
article
UniDistill
:A Univers
a
l Cross-Mo
d
a
lity Knowle
d
ge Di...
介绍:这篇文章为BEV下3D目标检测领域提出了一种知识蒸馏方案,无论是Li
d
a
r还是C
a
mer
a
作为数据输入,它们均可以...
赞
踩
article
详解
停车位
检测
算法 Vision-
Based
Parking
-
Slot
Detection
: A D...
本文介绍一篇基于深度学习的
停车位
检测
论文:DeepPS,作者同时公开了数据集ps2.0,工作很扎实,对于入门
停车位
检测
很...
赞
踩
article
BP-
LSTM
-
Attention
-
transformer
,含数据,可直接运行,TensorFlow...
本文主要讲解:BP-
LSTM
-
Attention
-
transformer
,含数据,可直接运行,_
lstm
+attenti...
赞
踩
article
论文翻译:
Scaled
-
YOLOv4
: Scaling Cross Stage Partial Ne...
大体翻译了下,个别地方原文看的我就迷糊,为了保持原样,就保留了。
Scaled
-
YOLOv4
: Scaling Cross...
赞
踩
article
2020年最新
C#
.
net
面试题,月薪20K+中高级/架构师必看
(
一
)_
net
6
cross
...
一
、如何在.NET中做deep copy?二、throw与throw e的区别?应该用哪
一
个?三、finally blo...
赞
踩
article
VoxelNet
: End-to-End
Learning
for
Point
Cloud Base...
图2.3.1 高效实现总概括_
point
cloud
to
voxel
,
software
point
cloud
t...
赞
踩
article
随机
Transformer
...
在这篇博客中,我们将通过一个端到端的示例来讲解
Transformer
模型中的数学原理。我们的目标是对模型的工作原理有...
赞
踩
相关标签
unity
移动
点乘
叉乘
Dot
自然语言处理
算法
神经网络
深度学习
gpt-3
人工智能
GPT
GPT-3
transformer
语言模型
c++
c语言
C/C++