weixin_40725706

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

七. 图像生成文本

作者：weixin_40725706 | 2024-04-05 21:58:25

赞

踩

图像生成文本

一. 问题介绍

1. Deep Learning 出现之前

不能提取图像的抽象信息

不能生成有意义的句子

检索问题：从候选句子中选择最匹配的

无法泛化：对新图像没有结果

2. 图像生成文本的应用

图像搜索——丰富图像搜索元数据，增强搜索结果

盲人导航

少儿教育

3. 图像生成问题的评测

3.1 BLEU score

(1) N-gram Match = Match_items / all items in result

eg1:

1- gram: 4/5
2- gram: 2/4
3- gram:0

eg2:

1- gram: 5/5 (显然不太合理，因为其实只匹配到了一个词“课程“)

(2) N-gram改进

N-gram Match = Min（matched_items,. Match_items_in_gt）/ items in result

Corrent 1-gram: 1/5

eg3:

1-gram:2/2

(3) 短句惩罚

其中，r表示实际句子的长度，c表示预测句子的长度

3.2 图像检索

3.3 人工评测

二. 图像生成文本建模

1. Beam Search生成文本

2. Multi-Model RNN

3. Show and Tell

4. Top-Down Bottom-Up Attention

5. 总结

（1）Multi-Modal RNN

每一步需要图像特征输入

普通的RNN

（2）Show and Tell

LSTM：使得同样的图像特征没必要重复输入

使得词语的原始embedding没必要输入

（3）Show attenttend and Tell

引入attention机制，每个词语可以对应图片不同的位置

每一步都需要输入图像加权特征

（4）Bottom-up top-down attention

分层机制解决一个LSTM同时学习两件事情的过载问题。

三. 反问题：文本生成图像

相关代码，详见github:https://github.com/crystal30/Deep_learning, 5_1——5_4

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/368125

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号