VLM 系列——RAM（recognize anything）—— 论文详解_recognize anything: a strong image tagging model

作者：小丑西瓜9 | 2024-06-12 19:46:25

踩

recognize anything: a strong image tagging model

一、概述

1、是什么

RAM 论文全称 Recognize Anything: A Strong Image Tagging Model。区别于图像领域常见的分类、检测、分割，他是标记任务——即多标签分类任务（一张图片命中一个类别），区分于分类（一张图片命中一个类别）。然后他这里提到的anything，需要注意，模型本身原始支持6449个标签（去掉同义词后4585个标签），但是可以通过后面提到的一些方法实现未知的标签（6449以外）识别。

如下是原生支持的6449个标签（去掉同义词后4585个标签）的官方地址，需要注意其中英文和中文是一一对应的，都是4585组。

原生支持的中文标签：https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list_chinese.txt

原生支持的英文标签：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/709355