赞
踩
动机:现有的工业异常检测(IAD)方法预测异常检测和定位的异常分数。然而,他们很难对异常区域(例如工业异常的颜色、形状和类别)执行多轮对话和详细描述。
多模态大模型的能力:在多模态视觉任务上有卓越的能力,比如image captioning,visual understanding,visual reasoning。
大模型局限:现有的一般LMM中不存在关于异常检测的知识,而训练特定的LMM进行异常检测需要大量的注释数据和大量的计算资源。
现有方法:
模块由Vision Expert Tokenizer (VE-Tokenizer)组成,目的是将异常分割图转换为LLM能理解的textual tokens
VE-Tokenizer包含多个块,由3x3内核的卷积,ReLUctant作为激活函数和最大池化组成,以便将输入异常图 R H x W R^{HxW} RHxW映射到vision expert embeddings R D V E x D L L M R^{D_{VE}xD_{LLM}} RDVExDLLM, D L L M D_{LLM} DLLM是LLM的维度, D V E D_{VE} DVE是vision expert embeddings的数量,通常设置为9
模块由EVA-CLIP中冻结的ViT,可训练的Adapter,Vision Expert Instructor,和BLIP-2中的QFormer组成
构建指令数据模板:“According to image and domain expert , find out if there are defects in this image.”
数据集:MVTecAD和VisA
评估指标:采用I-AUROC和P-AUROC来衡量异常分割图中图像级异常检测和像素级异常定位的性能,为和之前的工作对比,还报告了子数据集的平均准确度。
1-class Industrial Anomaly Detection:
Zero shot/few shot:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。