当前位置:   article > 正文

云计算实战应用案例精讲-【深度学习】多模态融合(最终篇)_多模态大模型 深度计算

多模态大模型 深度计算

目录

前言

算法原理

多模态深度学习中的网络结构设计和模态融合方法

图注意力机制

双模的transformer的注意力机制

双线性池化和注意力机制

多模态ALBEF模型

模型结构

预训练任务

代码实现

 多模态学习模型VILT

 VILT几个实用的源码实践

多模态融合 (Multimodal Fusion)

TFN(Multimodal Tensor Fusion Network)

LMF(Low-rank Multimodal Fusion)

PTP (polynomialtensor pooling)

DSSM(Deep Structured Semantic Models)

Dynamic Fusion for Multimodal Data

MFN(Memory Fusion Network)

Multi-Interactive MemoryNetwork

Neural Machine Translation with Universal Visual Representation

MCF(Multi-modal Circulant Fusion for Video-to-Language and Backward)

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Cross-modality Person re-identification with Shared-Specific Feature Transfer

Feature Projection for Improved Text Classification.

Learning Deep Multimodal Feature Representation with Asymmetric Multi-layer Fusion

Adaptive Multimodal Fusion for Facial Action Units Recognition

Attention Bottlenecks for Multimodal Fusion

算法拓展 

 多模态3D目标检测主要方法

(一)     决策级融合 (Decision-level)

(二) 特征级融合 (Feature-level)

2. 点/体素融合 (Point/Voxel-level)


前言

一般来说,模态是指事物发生或存在的方式,多模态是指两个或者两个以上的模态的各种形式的组合。对每一种信息的来源或者形式,都可以称为一种模态(Modality),目前研究领域中主要是对图像,文本,语音三种模态的处理。之所以要对模态进行融合,是因为不同模态的表现方式不一样,看待事物的角度也会不一样,所以存在一些交叉(所以存在信息冗余),互补(所以比单特征更优秀)的现象,甚至模态间可能还存在多种不同的信息交互,如果能合理的处理多模态信息,就能得到丰富特征信息。即概括来说多模态的显著特点是: 冗余性 和 互补性 。在这里插入图片描述

多模态3D目标检测是当前3D目标检测研究热点之一,主要是指利用跨模态数据提升模型的检测精度。一般而言,多模态数据包含:图像数据、激光雷达数据、毫米波雷达数据、双目深度数据等,

算法原理

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/915433
推荐阅读
相关标签
  

闽ICP备14008679号