赞
踩
在前面对CLIP的学习中,对zero-shot prediction环节一直有一些疑惑,zero-shot是什么,它该如何进行操作?
zero-shot是指零样本学习,和zero-shot相关联的概念包括many-shot、few-shot和one-shot,这些其实都是从训练集样本类型、测试集样本类型和对应的样本数量角度进行划分。
类型 | 特点 |
zero-shot(零样本学习) | 训练集类别和测试集类别之间没有交集,需要借助类别之间的描述进行推理 |
few-shot(小样本学习) | 只有极少量样本,训练后的模型,要对少量样本进行预测 |
many-shot(多样本学习) | 大量样本,训练后的模型要对样本进行预测 |
对于zero-shot过程,目前最好的解释是下面这张图。举个例子,小学生小明,在饱览马、老虎、熊猫等图片后,已经能够识别出马、老虎和熊猫。现在班主任说,小明,你帮我找下斑马的图片。
小明:what?斑马是啥,我没见过啊
班主任:斑马是黑白、条纹的马。
小明:黑白色(像熊猫那样)、条纹(像老虎那样),长得像马那样。
这里面涉及到了属性学习的概念,虽然物体的类别不同,但是物体间存在相同的属性,提炼出每一类别对应的属性并利用若干个学习器学习。
在测试时对测试数据的属性预测,再将预测出的属性组合,对应到类别,实现对测试数据的类别预测。
上图中,images space和label space分别为初始的图像空间和标签空间,在零样本学习中,一般会通过一些方法将图片映射到特征空间中,这个空间称为feature embedding ;同样的标签也会被映射到一个label embedding 当中,学习feature embedding 和label embedding 中的线性或非线性关系用于测试时的预测转化取代之前的直接由images space 到 label space的学习。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。