当前位置:   article > 正文

小白看英文论文之Every Picture Tells a Story: Generating Sentences from Images_every picture tell a story 算法

every picture tell a story 算法

论文地址在这:
https://www.ringling.edu/fileadmin/content/news/pdf/Perspectives_Spring-2009.pdf
这个论文讲的是一个可以计算从图像连接到句子的分数的系统。这个句子是通过比较图像获取到的意义和句子获取到的意义来的。

系统的贡献

1.引入了一个数据集用来研究这个方法
2.介绍了图像和句子之间的新颖表示
3.描述了一种新颖的,有辨别力的方法,可以在句子注释中产生非常好的结果
4.用分布语义(我也不太清楚这个啥意思)来应对这些问题
5.为提高评估质量,描述了有用规模的句子生成的定量评估

为了介绍了两种应用:

  1. 第一种叫:插图(illustration)用来查找文本建议的图片
  2. 第二种叫:注释(annotation)用来为图像找到文本注释

提供的方法:

是假设句子空间和图像空间之间存在一个意义空间,在意义空间上进行评估句子和图像的相似性

在这里插入图片描述
2.1将图像映射到意义中
用一个三元组来表示意义,这个三元组用来提供图像时什么以及什么是最重要的这些概念。而三元组的每个插槽都有一组离散的可能值(在论文中已经对应标注出来了),所以从图像到意义的映射被简化为学习预测图像的三元组。这就涉及到了求(最小)多标记马尔可夫随机场。(对于马尔可夫随机场的了解可以看一下这个https://blog.csdn.net/hohaizx/article/details/82868843),对象的结点可以从23个名词的可能集合中获取,具有16个不同中的动作节点以及可以旋转29个不同值中每个场景的结点,在提供了MRF的潜力之后,可以使用贪婪的方法进行推理,推理包括在给定一元和二元势的情况下找到离散值的最佳选择。

然后介绍了一些类有些复杂,我看不太懂的图像电位信息。目标就是找到初始估计的线性组合的权重,是的最终的线性组合势能在MRF上提供值,是基础事实三元组是所有示例的最高得分三元组。

2.2数据集的选择
他们是再PASCAL 2008图像周围建立字节的图像和句子数据集,并在其中随机选择了属于20个类别的50个图像。

2.3结果展示
提供了定性和定量的结果,有两个阶段,首先是展示了我们的方法从图像空间到意义空间的映射能了,在是评估了关于预测图像,注释的句子的结果,最后还显示了定义句子图像的定性结果。

很遗憾,这篇论文最细节的那些地方,我基本上看不太懂。哎。。。


从网上找到一个解析差不多说的是:构建三元组(object,action,scene),再用Felzanszwalb detector
classification 编码图像全数,H欧捏么classification 基于HOG特征进行分类,Gist-based scene
classification
编码图像全局信息,在通过SVM区分节点,建立节点特征,在计算三元组中单词在语料库中的归一化频率。基于MRF,三元组每个节点间的转移矩阵不同,采用Good
Turing smoothing methods做平滑并减少参数,以Curran &Clark
parser作为模板生成句子,再使用LIN相似性度量来确定两个单词之间的语义距离。


(太强了,这些单词和方法全都出现在论文中,只不过我全都跳过了。。。。)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/857277
推荐阅读
相关标签
  

闽ICP备14008679号