当前位置:   article > 正文

通过划分来解析表达:多模态感知数据的表示学习框架_disentangling by partitioning: a representation le

disentangling by partitioning: a representation learning framework for multi

通过划分来解析表达:多模态感知数据的表示学习框架

W.Hsu, and J. Glass, “Disentangling by Partitioning: A Representation Learning Framework for Multimodal Sensory Data,” arXiv preprint arXiv:1805.11264.
摘要:多模态感知数据是一种类似于人类感知学习的信息形式,并且易于大量获取。与单模态数据相比,这些数据中的模态之间包含的概念同步提供了用于解开每种模态的潜在解释因素的监督信息。以前利用多模态数据的工作主要集中在保留模态不变因素而忽略其余因素。在本文中,本文提出了一个分离变分自动编码器和几个训练目标函数来学习分解的表征,它们不仅将共享因素编码,而且将模态依赖因素也编码,将它们表征为单独的潜在变量。具体而言,分离变分自动编码器集成了变分推理框架和多模态生成模型,该模型将解释因素分离开,条件地划分为它们的相关子集以用于生成。我们在两个平行的语音/图像数据集上评估我们的模型,并通过定性探索内部模态和跨模态条件生成来证明其学习分解表征的能力,其中语义和样式由示例指定。对于定量分析,我们评估自动发现的语义单位的分类准确性。我们的分离变分自动编码器可以在两种模式下实现99%以上的准确度。

一、 研究背景
要建立像人类一样学习和思考的人工智能,人们需要设计一种能够理解世界的机器。这种理解只能通过学习从观察到的低级感官数据中识别和分解潜在的解释性因素来实现,例如,来自语音的单词和说话者身份。该过程也称为表征学习,是机器学习中的基本问题之一。除了认知科学家的兴趣之外,可解释和解开的表征也被证明在各种任务中都很有用,例如零样本学习,异常点检测和转移学习,这些人类擅长和但是监督模型学习却很难完成的任务。
变分自动编码器通过结合神经网络和概率生成模型为学习表征提供了一个通用而强大的框架:变量之间的因果关系由概率图模型表达,复杂的非线性条件指定关系由神经网络来表征。在这种情况下,学习对应于拟合模型参数,使得观察到的数据集的可能性最大化,表征指的是数据的潜在变量的推断值。该框架在直接从原始感官数据表征方面取得了巨大成功,包括图像,语音和视频。

二、 研究现状
多模态数据的学习表征近年来引起了人们的极大兴趣。许多工作采用了文本,语音,音频,图像或视频的某种组合,旨在从组合中学习模态不变的语义表征。例如,[1]中的作者提出了一个框架,用于学习通常由图像和并行语音标题描述的概念,但忽略了说话者信息和图像样式信息。尽管这样的表征对于某些任务(例如模式识别或基于语义的检索)可能是有用的,但是它们不能应用于要求以单一模态出现的信息的许多其他任务,例如图像生成或说话者验证。相比之下,我们提供了一个统一的PVAE框架,用于学习模态不变的语义信息以及依赖于模态的因素。
最近有许多关于使用变分自动编码器学习解缠结表征的研究,其中不同的潜在变量集对不同解释因素的变化敏感,而对其他因素没有影响。一个研究方向采用简单的图形模型,该模型仅包含单个多维潜变量,旨在进行尺寸方向解开,将每个维度与不同的解释因素联系起来[2]。通常通过鼓励表征分布是因素来实现解缠结。然而,但是由于潜在变量的维度之间的可交换性,只有通过手动检查所生成的样本中的包含信息对应的物理意义,所以这种表征是不可解释的。
另一项研究重点是变量解缠结,它将数据的不同方面编码为单独的潜在变量[3]。这些方法通过设计具有潜在变量之间固定因果关系的图形模型,结合了关于数据生成过程的先验知识。因此,无需人工检查即可解释通过此类方法学习的表征。设计这种图形模型的一个常见技巧是将一个潜在变量与多个观察变量的生成联系起来,使得该潜在变量将编码所关联的观察变量的辅因素。我们的分离变分自动编码器模型与神经统计学家[3]和因素分层变分自动编码器[4]从这个角度共享相同的视图,其中我们将一个潜在变量与样本中的不同模态联系起来,而不是与一个数据集中的实例相关联,或序列中的段相关联。
我们的工作还涉及联合多模态变分自动编码器[5],它从多模态数据中学习表征,并允许从一种模态到另一种模态的双向生成。作者假设所有模态的生成过程都涉及相同的解释因素集,并且每种模态的生成都以相同的潜在变量为条件。因此,从联合多模态变分自动编码器获得的陈述并未被解开。此外,联合多模态变分自动编码器中考虑的模态是图像及其属性标签,具有从前者到后者的相对确定的映射。

参考文献
[1] D. Harwath, A. Torralba, and J. R. Glass, “Unsupervised learning of spoken language with visual context,” Barcelona, Spain, 2016, pp. 1866 – 1874.
[2] X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever, and P. Abbeel, “Infogan: Interpretable representation learning by information maximizing generative adversarial nets,” Barcelona, Spain, 2016, pp. 2180 – 2188.
[3] H. Edwards and A. Storkey, “Towards a neural statistician,” 2017.
[4] W.-N. Hsu, Y. Zhang, and J. Glass, “Unsupervised learning of disentangled and interpretable representations from sequential data,” Long Beach, CA, United states, 2017, pp. 1879 –61890.
[5] M. Suzuki, K. Nakayama, and Y. Matsuo, “Joint multimodal learning with deep generative models,” 2016.
三、 存在问题
做表达最大的问题应该是信息损失,表达的目的是为了更好的服务下游任务,但是表达之后的信息很难完全保持所有的信息,一般都是和下游任务密切相关的。
其次就是表达的解释性。我们获得了一个表达,这个表达的性能或许不错,但是表达当中每一个维度,或者每几个维度到底有什么样的物理意义,这个是比较困难的,这也是本文的重点,为了解释学习得到的表达,将隐含表达分成两部分,分别对应不同的物理意义,本文中是语义和风格。
四、 创新之处
在本文中,我们研究了从多模态感知数据中发现解释因素的任务,例如平行图像和语音记录,类似于人类在学习过程中所感知的内容。与单峰数据相比,不同模态与这些数据之间的同步提供了对潜在生成过程推理的监督,并从其他过程中解开共享的解释因素。利用多模态感知数据的先前工作主要集中在目标是提取共享解释因素同时丢弃其余部分的情景。此类表征仅对下游任务的子集有用,但不能应用于需要这些丢弃因素的任务。另一方面,我们的目标是不仅学习共同解释因素的表征,而且学习依赖于模态的因素,并将它们编码在不同的潜在变量中,以便解开和解释。我们提出了一种用于多模态数据的分区生成模型,其中每种模态涉及一种模态不变的潜在语义变量和一种模态依赖的潜在风格变量。通过将该模型与单模和多模推理模型相结合,我们提出了一种新的分离变分自动编码器和几个训练目标,用于学习变量级解缠结表征和促进解缠结。我们的模型在两个多模口语/书写数字数据集上进行评估。定量和定性结果都验证了我们的生成模型的有用性,并证明了分离语义和样式信息的能力。特别是,分离变分自动编码器还能够自动发现数字类的数量,并在两种模态下实现超过99%的分类准确度。
五、 方法概述
我们提出了一种用于多模态数据的分区生成模型,其中每种模态涉及一种模态不变的潜在语义变量和一种模态依赖的潜在风格变量。通过将该模型与单模和多模推理模型相结合,我们提出了一种新的分离变分自动编码器和几个训练目标,用于学习变量级解缠结表征和促进解缠结。流程图如下图所示:从下往上,首先是推理阶段,确定隐含变量之后,根据隐含生成对应的声音或者图片。工程细节尚不明确。
在这里插入图片描述
在这里插入图片描述

六、 实施方案
1、实验环境介绍
2、实验数据介绍
3、工程化流程图
在这里插入图片描述

主要操作过程就是利用神经网络构造图像和语音的编码器,解码器,通过学习分离的潜在中间变量来分开语义特征(本文中代表类别标签)和风格特征(代表手写风格或者语音风格)。
4、具体的研究路线(1500字)
本文研究的是变分自编码器在多模态数据中学习到的中间变量的解释。为了更好的解释,作者将隐含变量分开,分别学习多模态数据代表的语义和风格。
本文使用的多模态数据主要来自MNIST,TIDIGIT和SecuVoice。TIDIGIT包含由225位成年人说出的超过17,000个英语宽带数字序列。我们使用Kaldi训练语音识别器将序列分成单个数字。SecuVoice包含用两个智能手机录制的超过3.5k的孤立数字序列,我们使用具有更高动态范围的录音。应用基于能量的语音活动检测来消除静音。语音表示为80维Mel级滤波器组系数(FBank)的序列,每10ms计算一次。 TIDIGIT和SecuVoice的平均数字持续时间分别为0.37s和0.76s。 MNIST数据集用于书写数字,图像表示为28×28的像素矩阵。为了生成多模态数据,我们将每个说出的数字与具有相同身份的书写数字配对。
网络框架如第五部分所示,作者使用Adam来优化网络参数。训练batch大小256,初始学习率10-3,持续400个完整数据循环。
七、 方向展望
做好更好的表达,更好的进行表达的分离解释;发掘需要分离潜在中间变量的任务。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/159463
推荐阅读
相关标签
  

闽ICP备14008679号