提前报名｜Google DeepMind下一代图像检索模型MagicLens

作者：凡人多烦事01 | 2024-05-06 13:47:36

踩

报告主题：Google DeepMind下一代图像检索模型MagicLens

报告日期：5月8日（周二）10:30-11:30

报告要点：

我们认为近20年来的图像检索问题(图像->图像)定义并不明确：用户上传图片搜索的时候被迫只能有一个搜索意图"找到一样的图片"。事实上用户可能对于一张图片有不同的搜索意图：比如，这个景点周围的景点，这个建筑内部长什么样？因此，相比于传统的仅根据图片本身的相似度检索，让模型理解开放指令表达的多样化搜索意图和图片关系可以支持更精准的图像检索。为了挖掘多样化的图像关系，我们使用同一网页中自然共现的图像对作为自监督型号，并使用大模型（PALI/PaLM）生成开放式的搜索指令。主页：https://open-vision-language.github.io/MagicLens/

1) 在3670万数据上训练后，MagicLens模型可以在10个多模态->图像, 图像->图像, 以及文本->图像检索任务中都取得了和之前SOTA相当甚至更好的性能。

2) 在多个数据集上，MagicLens模型强于之前SOTA，但是仅有其不足五十分之一的参数量。

3) 我们在140万大小的图像检索池上进行人工评估和分析，发现MagicLens 可以满足复杂的甚至超越视觉的搜索意图。

报告嘉宾：

张凯，论文一作，他是俄亥俄州立大学二年级计算机博士生，导师为苏煜教授。他对自然语言处理和多模态的真实世界应用有着广泛的兴趣。主页：https://drogozhang.github.io

扫码报名

近期热门报告

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/544493