VLM 系列——RAM（recognize anything）—— 论文详解

作者：凡人多烦事01 | 2024-03-26 03:42:21

踩

recognize anything

一、概述

1、是什么

RAM 论文全称 Recognize Anything: A Strong Image Tagging Model。区别于图像领域常见的分类、检测、分割，他是标记任务——即多标签分类任务（一张图片命中一个类别），区分于分类（一张图片命中一个类别）。然后他这里提到的anything，需要注意，模型本身原始支持6449个标签（去掉同义词后4585个标签），但是可以通过后面提到的一些方法实现未知的标签（6449以外）识别。

如下是原生支持的6449个标签（去掉同义词后4585个标签）的官方地址，需要注意其中英文和中文是一一对应的，都是4585组。

原生支持的中文标签：https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list_chinese.txt

原生支持的英文标签：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/314439