赞
踩
目录
TFN(Multimodal Tensor Fusion Network)
LMF(Low-rank Multimodal Fusion)
PTP (polynomialtensor pooling)
DSSM(Deep Structured Semantic Models)
Dynamic Fusion for Multimodal Data
Multi-Interactive MemoryNetwork
Neural Machine Translation with Universal Visual Representation
MCF(Multi-modal Circulant Fusion for Video-to-Language and Backward)
Adversarial Multimodal Representation Learning for Click-Through Rate Prediction
Cross-modality Person re-identification with Shared-Specific Feature Transfer
Feature Projection for Improved Text Classification.
Learning Deep Multimodal Feature Representation with Asymmetric Multi-layer Fusion
Adaptive Multimodal Fusion for Facial Action Units Recognition
Attention Bottlenecks for Multimodal Fusion
一般来说,模态是指事物发生或存在的方式,多模态是指两个或者两个以上的模态的各种形式的组合。对每一种信息的来源或者形式,都可以称为一种模态(Modality),目前研究领域中主要是对图像,文本,语音三种模态的处理。之所以要对模态进行融合,是因为不同模态的表现方式不一样,看待事物的角度也会不一样,所以存在一些交叉(所以存在信息冗余),互补(所以比单特征更优秀)的现象,甚至模态间可能还存在多种不同的信息交互,如果能合理的处理多模态信息,就能得到丰富特征信息。即概括来说多模态的显著特点是: 冗余性 和 互补性 。
多模态3D目标检测是当前3D目标检测研究热点之一,主要是指利用跨模态数据提升模型的检测精度。一般而言,多模态数据包含:图像数据、激光雷达数据、毫米波雷达数据、双目深度数据等,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。