当前位置:   article > 正文

【论文泛读】Multimodal Attribute Extraction

multimodal attribute extraction

介绍

  快速高效地访问网页中的知识内容。内容组成多元化,需要从多模态数据中构建知识库的方法,更重要的是,结合证据以提取正确的答案。
  多模态属性提取的任务。文本领域的属性提取已经得到了很好的研究,这是首次使用多种数据模式组合进行属性提取。
  提出大型数据集Multimodal Attribute Extraction(MAE),为了评估任务和数据集的难度,我们首先使用Mechanical Turk进行人体评估研究,该研究证明所有可用的信息模式都有助于检测值。我们还对数据集上的各种机器学习模型进行训练并提供结果。我们观察到,一个简单的最常见值分类器总是预测给定属性的最常见值,为更复杂的模型提供了一个非常困难的基线(33%的准确率)。在我们目前的实验中,尽管使用了VGG-16和Google的Inception-v3等现代神经架构,但我们无法训练出一种性能优于这个简单模型的纯图像分类器。但是,我们可以只使用文本分类(59%的准确率)。我们希望在进一步的研究中改进并获得更精确的模型。

多模态产品属性提取

  由于多模态属性提取器需要能够返回图像和文本中出现的属性值,因此我们不能像现有属性提取方法那样将该问题视为标签问题。相反,我们将问题定义为:给定一个产品i和一个查询属性a,我们需要从为i提供的证据中提取相应的值v,即它的文本描述(Di)和图像集合(Ii)。例如,在图1中,我们观察了产品的图像和描述,以及一些感兴趣的属性和值的示例。对于培训,针对一组产品项目I,我们针对每个项目I提供了培训∈ 一、 它的文本描述和图像Ii,以及一组属性-值对(即Ai={haj I,vj Ii}j)组成的集合。一般来说,查询时的产品将不在I中,并且我们不为产品、属性或值假设任何固定的本体。我们根据预测值与观察值的准确性来评估此任务的性能,但是,由于可能存在多个正确值,我们还包括hits@k评价。

MAE数据集
  每个项目都包含文本描述、产品图像集和产品属性的开放模式表。Diffbot API使用基于机器学习的提取器获取此信息,提取器使用完全呈现的产品网页的视觉、文本和布局功能。例如,属性值对是从产品网页上的表中自动提取的。由于此收集过程的自动化性质,数据集中存在一些噪音。例如,同一属性可以用许多不同的方式表示(例如,长度、长度、长度)。我们使用基于正则表达式的预处理来规范化最常见的属性,但是,我们会保留未规范化的值。我们还删除任何属性值对满足以下任何频率条件的:属性出现次数少于500次,值出现次数少于50次,或者属性的最常见值占属性值对的80%以上。使用80-10-10分割法将数据分割为培训、验证和测试集。

机械土耳其人评价
   由于属性和值是在网站上显示时提取的,因此不能保证属性-值对出现在产品图像或文本描述中。我们使用Amazon Mechanical Turk进行了一项研究,以确定该问题对数据集的影响程度,并收集一个属性值对的黄金评估数据集,该数据集保证在上下文信息中显示。向Mechanical Turk工人展示产品的图像和文字描述,并要求他们确定是否可以使用提供的信息预测给定产品属性的值(从选项列表中),如果可以,使用哪些信息。我们使用多数票来消除这些注释中的噪声。
本研究的(初步)结果表明,使用上下文信息只能找到42%的属性-值对。其中,35%可以通过产品图片找到,70%可以通过文字描述找到。这表明,虽然文本描述是最有用的属性提取模式,但图像中仍然包含有用的信息。

多模态融合模型

  建立了一个新的提取模型,该模型由三个单独的模块组成:
(1)编码模块,使用神经网络联合嵌入问题、描述和图像到公共潜在空间中
(2)使用特定属性注意机制将这些嵌入向量组合到单个密集向量的融合模块
(3)产生最终值预测的基于相似度的值解码器。
如图所示:
在这里插入图片描述
编码模块
   我们为每个属性和值指定一个密集嵌入,即。E属性a由k维向量ca表示,值v由cv表示,在训练过程中学习向量。
文本描述:首先使用Stanford tokenizer标记文本,然后使用Glove算法将所有单词嵌入到训练数据中的所有描述中。使用Kim 的CNN体系结构,该体系结构由CNN层、最大池和完全连接层组成,将这些预训练的嵌入组合到一个用于描述的密集向量cD中。
图像:卷积神经网络生成。使用预训练16层VGG模型的fc7层输出(应用ReLU非线性后)获得中间图像表示。然后,我们通过一个完全连接的层为输出提供信息,以获得每个图像的k维嵌入。最终的嵌入是通过对图像嵌入执行最大池生成的。

融合
   为了将属性嵌入和文本和图像嵌入融合在一起,我们使用了两种不同的技术进行实验:

  1. Concat,它将三种方法连接在一起,然后通过一个完全连接的层将它们馈送,以产生融合编码c。
  2. GMU,首先使用完全连接的层将属性向量文本和图像嵌入独立地融合

实验

实验结果表明针对这个数据集,提出的模型效果不如传统的直接连接的结果好

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/734970
推荐阅读
  

闽ICP备14008679号