当前位置:   article > 正文

七. 图像生成文本

图像生成文本

一. 问题介绍

1. Deep Learning 出现之前

不能提取图像的抽象信息

不能生成有意义的句子

检索问题:从候选句子中选择最匹配的

无法泛化:对新图像没有结果

2. 图像生成文本的应用

图像搜索——丰富图像搜索元数据,增强搜索结果

盲人导航

少儿教育

3. 图像生成问题的评测

3.1 BLEU score

(1) N-gram Match = Match_items / all items in result

eg1:

  1. 1- gram: 4/5
  2. 2- gram: 2/4
  3. 3- gram:0

eg2:

  1. 1- gram: 5/5 (显然不太合理,因为其实只匹配到了一个词“课程“)

(2) N-gram改进

N-gram Match = Min(matched_items,. Match_items_in_gt)/ items in result

Corrent 1-gram: 1/5

eg3:

  1. 1-gram:2/2

 (3) 短句惩罚

其中,r表示实际句子的长度,c表示预测句子的长度

3.2 图像检索

3.3 人工评测

 

二. 图像生成文本建模

 

 

1. Beam Search生成文本

2. Multi-Model RNN

 

 

 

3. Show and Tell

 

 

 

 

 

 

4. Top-Down Bottom-Up Attention

 

 

5. 总结

(1)Multi-Modal RNN

每一步需要图像特征输入

普通的RNN

(2)Show and Tell

LSTM:使得同样的图像特征没必要重复输入

使得词语的原始embedding没必要输入

(3)Show attenttend and Tell

引入attention机制,每个词语可以对应图片不同的位置

每一步都需要输入图像加权特征

(4)Bottom-up top-down attention

分层机制解决一个LSTM同时学习两件事情的过载问题。

三. 反问题:文本生成图像

 

 

 

相关代码,详见github:https://github.com/crystal30/Deep_learning, 5_1——5_4

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/368125
推荐阅读
相关标签
  

闽ICP备14008679号