赞
踩
提示:更新中,一周左右更新完毕。需要具体课件的可私信
讲者:李冠彬-中山大学
时间:第二天下午
![在这里插入图片描述](https://img-
blog.csdnimg.cn/direct/0fe51b99b65540e2b6282d2632b06171.png)
开放词汇视觉感知 要求模型从海量图文对数据中学习视觉概念知识,并在实际开放 场景中实现不限类别 的视觉感知。
利用海量图像-文本对,将图像与文本映射到同一嵌入空间,实现概念跨模态语义对齐。
特点:
图文关联弱,噪声较大
海量数据易获取
泛化能力强
实验结果分析:
1.多模态提示学习优于单模态提示学习,耦合多模态提示优于独立多模态提示
2.对于新类泛化能力,MaPLe优于CoCoOp,原因归于MaPLe 利用了文本和视觉提示的协同学习
3.整体性能MaPLe都优于CoOp和CoCoOp
《Grounded Language-Image Pre-training》
算法思想
1.将物体匹配与短语定位任务统一起来进行预训练;
2.利用区域定位能力从图文对数据中构建准确的区域文本对数据
核心贡献
1.统一的区域级图文匹配预训练模型
2.准确性高,泛用性强
利用海量“图像-文本”数据扩大视觉概念:
1)利用已有的Grounding数据(80万)进行监督训练,得到教师模型
2)从图像文本对数据提取名词短语,基于“教师-学生” 半监督学习从“图像文本对”生成“区域文本对”伪标签,并加入训练学生模型。
总结一下:
清华大学 丁贵广
程明明 南开大学
需要完整课件的可私信
薄一航-北京电影学院美术学院
董未名-中国科学院自动化研究所
姚鸿勋-哈工大
张克俊-浙大
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。