赞
踩
Recognize Anything: A Strong Image Tagging Model
提出“识别万物模型”(Recognize Anything Model,RAM),用于图像打标签。RAM 可以高精度地识别任何常见类别。RAM 引入了图像打标签的一个新范式,利用大规模的图像-文本对进行训练,而不是手动标注。
开发 RAM 分为四个步骤。首先,通过自动文本语义解析获得图像标签。随后,通过统一文本描述和打标任务进行监督训练,以原始文本和解析标签为监督来自动标注一个初步模型。第三步,使用数据引擎生成附加标注,并清除不正确的标签。最后,使用处理后的数据重新训练模型,使用较小但更高质量的数据集进行微调。
在许多基准测试上评估了 RAM 的打标能力,并观察到令人印象深刻的零样本性能,优于 CLIP 和 BLIP。值得注意的是,RAM 甚至超过了全监督的方式,并展现出与 Google API 竞争的性能。
代码:https://recognize-anything.github.io/
关注公众号【机器学习与AI生成创作】,更多精彩等你来读:
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
深入浅出ControlNet,一种可控生成的AIGC绘画生成算法!
最新最全100篇汇总!生成扩散模型Diffusion Models
附下载 |《TensorFlow 2.0 深度学习算法实战》
《礼记·学记》有云:独学而无友,则孤陋而寡闻
点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。