赞
踩
关键词:声源定位、跨模态对齐、跨模态学习、音视频学习
人类可以轻松地确定声音的来源,例如通过关注声音的方向并将其与视觉信息联系起来。声音来源定位在视觉场景中具有重要的应用价值,例如语音识别、视频监控和虚拟现实等。最近的研究指出了现有声源定位基准测试中的视觉显著性偏差,并利用这种偏差来提高定位精度。这些研究表明,即使没有视觉和听觉信号之间的交互,模型仅依赖于视觉信号也可以实现高定位精度,这与声源定位任务的真正目标相矛盾。简而言之,当前的评估、基准测试和模型设置没有充分捕捉视听交互能力。
本文构建了一个新的基准数据集,用于评估交互式声音来源定位;同时提出了一种新的学习方法,在声音来源定位和跨模态检索任务上取得了最先进的性能。
源代码:https://github.com/kaistmm/SSLalignment
1.1.1 基于跨模态注意力机制的方法
这是最广泛使用的方法,它利用音频和视觉特征之间的对应关系来定位声音来源。主要方法包括:
1.1.2 利用额外语义标签或物体先验的方法
这些方法利用额外的语义标签或物体先验来提高定位精度,例如:
1.1.3 声音分离和视听导航
这些方法试图同时定位声音来源并分离声音,或者为特定的声音来源进行视听导航。
3.1.1 训练数据集
3.1.2 测试数据集
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。