赞
踩
作者:禅与计算机程序设计艺术
图像captioning,即将图片中的对象、区域、情感等描述出来,是计算机视觉领域的一个重要任务。近年来,基于深度学习的多种图像captioning模型逐渐火热起来,取得了很好的效果。本文从Captioning的基本概念开始,到模型设计,再到代码实现,希望能够给读者提供一些参考。
首先我们需要了解一下Captioning的基本概念。
Captioning:Captioning,即通过描述来产生相应的图像。在图像 captioning 中,目标通常是一个句子,用来概括或描述整个图像的内容,其形式可以是文本或者视频。该过程可用于图像检索、图像分类、视频分析、图像合成、图像编辑、用户体验评估等方面。
对象检测(Object detection):对于输入的一张图片,计算机要识别出所有目标物体及其位置。一般来说,物体检测可以通过分割技术来进行,也可以通过分类器来判断是否包含某类目标物体。
机器翻译(Machine translation):机器翻译是指让计算机将一种语言的语句自动转换为另一种语言的语句的能力。简单的说,就是一个机器接收到一个单词序列并输出另一个单词序列。
自然语言生成(Natural language generation):在图像 captioning 的过程中,我们会用到自然语言生成技术。生成器负责根据目标对象、场景信息等生成对应的句子。自然语言生成(N
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。