赞
踩
image caption简单来说就是看图说话:给定一张图片,生成该图片对应的自然语言描述。图像描述任务涉及到了图像和自然语言两个模态,然而图像与自然语言空间本身就非常庞大,两者之间存在巨大的语义鸿沟。如何将两个庞大的语义空间对齐,是图像描述任务的重点。
ClipCap: CLIP Prefix for Image Captioning 这篇论文实现了图像到语义空间的转化,搭建了一种基于Mapping Network的Encoder-Decoder模型,其中Mapping Network扮演了图像空间与文本空间之间的桥梁。论文模型主要分为三部分:
CLIP算法本质上就是完成图像-文本对匹配。通过图像和文本编码器转化成向量,再进一步转化到同一个高维的向量空间中,计算图像和文本向量的相似度。实际就是在训练数据,让图像和文本完成一对一匹配,当输入预测图片时候,得到预测图片向量,去训练好的匹配库中,找出最相似的文本向量进行输出。
本人根据clip官网的代码,替换过数据集进行过训练和测试,包括中文数据和英文数据。英文数据测试效果如下:
clip这个项目代码需要的环境很复杂,有点难调,我有搭好的环境和现成改好的代码,有需要替换自己数据集进行训练和测试的朋友,欢迎来私信我,有偿帮忙训练和讲解哦!!!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。