赞
踩
©PaperWeekly 原创 · 作者 | 张一帆
学校 | 华南理工大学本科生
研究方向 | CV,Causality
Abstract
联系视觉和语言在通用人工智能中起着至关重要的作用。因此近几年来大量的工作致力于图像字幕(image captioning),这项任务简而言之就是“使用语法和语义正确的语言描述图像”。
从 2015 年开始这项任务的 pipeline 就被分为了两部分,第一阶段即对图像特征进行编码,第二阶段生成语句。这两年来,随着对物体对象区域,属性,以及物体之间的关系的开发,和对多模态连接,全注意力方法以及像 BERT 一样的早期融合方法的引入,这两个阶段都得到了极大的发展。虽然性能是提升了,但是图像字幕依然没有得到一个“最终答案”。
这篇工作旨在提供一个综合性的概述以及对现有方法的分门别类,它的分类方式大概是根据如下方面的不同:1. 视觉编码;2. 文本生成;3. 训练策略;4. 数据集;5. 评测指标。
文中定量地比较了图像字幕很多模型,以此来找出最有影响力的网络结构和训练策略方面的技术革新。除此之外,文中还讨论了大量的变体方法和他们面临的挑战。这项工作的最终目标是作为一个工具来理解现有的最先进的技术,并强调计算机视觉和自然语言处理可以找到最佳协同的未来研究方向。
论文标题:
From Show to Tell: A Survey on Image Captioning
论文链接:
https://arxiv.org/abs/2107.06912
Introduction
图像字幕即使用自然语言描述图像,使用一个图像理解模块和一个自然语言生成模块。神经科学在近几年里阐述了人类语言和视觉之间的联系。同样的,在 AI 领域能够处理图像和生成语言的架构的设计是一个非常新的问题。这些研究工作的目标是找到最有效的 pipeline 来处理输入图像,表示其内容,并在保持语言流畅
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。