赞
踩
多模态数据融合是多模态预训练模型的重要的一部分,针对融合时期、融合程度和融合方式的不同,可将多模态数据融合分为早期融合、晚期融合和混合融合三种[30]。
为了解决各个模态之间的原始数据的不一致性,可以从每个模态中分别提取各自的特征表现形式,接着在特征级别上进行融合,称之为特征融合[31]。在深度学习中有时涉及从原始数据中学习特征的表示形式,导致有时在特征提取之前就进行数据融合,因此数据层和特征层的融合均称为早期融合。早期融合图如图4(a)所示。在特征融合中,首先提取单一模态的特征,然后合并提取到的模态到融合特征中,再将该特征输入到指定模型中,输出预测结果。在该融合方法中,各模态特征经过转换、缩放等操作后得到的融合特征具有很高的维度,可使用线性判别分析(LinearDiscriminantAnalysis,LDA)[32]对融合特征进行降维处理。常常用早期融合结合语音识别中的音频和视频特征[33]。由于各种模态本身的差异,只进行简单的属性相接可能会忽略模态之间相关性和独有的特点,并可能产生数据之间的冗余和数据依赖[34]。并且在融合动作进行之前,要保证特征以相同的格式进行输入。
晚期融合方法也称决策级融合方法,先用对应的模型对各个模态进行建模训练,再融合多个模型输出的结果。这种方法主要采用最大值结合、平均值结合、贝叶斯规则等结合规则来确定不同模型输出结果的结合策略,较早期融合方法解决了一定的数据异步性。这样融合的好处是融合模型的错误来自不同的分类器,不会造成错误的累加效应。针对不同的模态可以选择各自最适合的分析方法,如音频使用隐马尔可夫模型[35]图像使用可支持向量机(SupportVectorMachine,SVM)[36],但这加大了融合的难度。晚期融合如图4(b)所示。
混合融合方法在综合了早期融合和晚期融合优点的同时,也增加了训练的难度。在深度学习中,各模型灵活性和不确定性较大,大多使用混合融合方法。模型图如图4©所示。
研究表明,每个融合方式并无确定的优劣之分,在不同的实验条件下,可以尝试不同的融合方式来达到预期的效果。三种融合方式的具体参数比较如表1所示。
多模态融合方法挺多的,这里只是说了三种,还有一种中期的融合方法,可以借鉴别的论文看看。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。