赞
踩
目录
图像字幕技术,就是给定一个图像,生成一段符合图像内容的,准确且语言通顺的描述。
这明显包括两个部分,一是视觉理解,二是语言生成。
为了保证生成的描述语句,在语义和语法上都是正确的,需要利用计算机视觉和自然语言处理两种技术来分别处理不同模态的数据,并适当的集成。
这里就需要用到深度学习技术。
之前都是基于模板的方法,以及基于检索的方法,自从有了深度学习方法,性能和效果,才大大的提升。
下面从五个方面来梳理相关知识点和一起来学习。
目前主流整体架构,都是基于编码器-解码器架构或者复合架构来构建学习模型。
基于深度学习模型构建的图像描述生成方法,大多采用端到端的方式。这与编码器-解码器架构的神经机器学习方法非常类似。由此启发,可以将图像描述生成,看成是一个序列到一个序列的生成,输入图像,输出语言描述。编码器通常使用卷积神经网络CNN技术,提取图像特征,解码器通常采用循环神经网络,生成自然语言描述。
编码器-解码器架构是图像描述生成中的主流方法。其中,编码器负责从图像中提取特征,将图像表示为一个高维特征向量;解码器则负责将这个特征向量转换成自然语言描述。
这里涉及到的关键技术有:
实现方法可以如下处理:
学习策略,包括了监督学习、无监督学习和强化学习。
在图像生成描述任务中,学习策略起到了至关重要的作用。根据训练数据和使用的方法,学习策略主要可以分为监督学习、无监督学习和强化学习。下面将分别给出这三种学习策略的详细定义、关键技术、发展历程以及重要的模型。
定义:监督学习是指利用一组已知输入和对应输出的数据来训练模型,使模型能够对新的输入数据预测出相应的输出。在图像生成描述中,监督学习利用图像和对应的人工标注描述作为训练数据。
关键技术:
发展历程:早期的图像描述生成模型多采用监督学习,通过最大化在给定图像下生成正确描述的概率来训练模型。随着深度学习的发展,模型的结构和性能得到了显著提升。
重要模型:
定义:无监督学习是指在没有已知输出或标签的情况下,通过学习数据中的内在结构和规律来训练模型。在图像生成描述中,无监督学习尝试从大量的未标注图像中学习生成描述。
关键技术:
发展历程:无监督学习在图像生成描述中的应用相对较少,因为
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。