VLM 系列——RAM++（recognize anything++）—— 论文详解

作者：小小林熬夜学编程 | 2024-03-26 03:41:29

踩

ram++

一、概述

1、是什么

RAM++（RAM plus plus）论文全称《Open-Set Image Tagging with Multi-Grained Text Supervision》。区别于图像领域常见的分类、检测、分割，他是标记任务——多标签分类任务（一张图片命中一个类别），区分于分类（一张图片命中一个类别）。然后他这里提到的Open-Set，需要注意，模型本身原始支持6449个标签（去掉同义词后4585个标签），但是可以通过GPT（后面会详细介绍）实现未知的标签（6449以外）识别。

如下是原生支持的6449个标签（去掉同义词后4585个标签）的官方地址，需要注意其中英文和中文是一一对应的，都是4585组。

原生支持的中文标签：https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list_chinese.txt

原生支持的英文标签：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/314433