赞
踩
下图来自李飞飞教授和其学生讲授的CS-231N
在transformer时代,目标检测和实例分割其实基本上可以看作是一个东西了。
其实是对输入图像进行像素级分类。
语义分割不仅能分辨出图像中的物体,还能在像素级理解这些物体的边界,在深度学习时代,语义分割问题其实是一个密集预测问题。
不仅为每个像素分配一个类别标签,还能将同一类别的不同对象区分开来。
既能识别每个物体的类别,又能识别这些物体的单个实例。
理解不同物体之间的关系。
比语义分割和目标检测都更具挑战性。
结合语义分割和实例分割,提供对场景的全面理解。
为每个像素贴上类别标签和实例标签。
全景分割法分配一个语义标签(如 “车”、“树”、“路”),并区分同一类别的多个实例(如车 1、车 2)。这意味着所有像素都会被赋予一个类别标签,属于 "事物 "类别(可数对象,如人、汽车等)的像素还会被区分为不同的实例。
"全景 "指的是 “看到一切”,反映了这项任务的目的是整合语义分割(能很好地处理 "物 "类,如天空、道路、草地等)和实例分割(能很好地处理 "物 "类)的优势,前者是无定形的,不可数的,而后者是可数的。
沿视频将图像中的每个像素归入某个类别。
探索分割的时间一致性(temporal consistency)
在像素级别分割和跟踪前景物体。
探索时间一致性(temporal consistency)和实例 ID 一致性(instance ID consistency)。
比图像实例分割更复杂,因为它需要处理物体运动、外观变化、遮挡以及各帧标签的时间一致性等问题。
算法还需要将当前帧中的分割实例与之前帧中的实例联系起来,以确保它们在不同帧的实例ID一致性。
参考论文
IoU是一种量化预测分割与实况(实际)分割之间重叠程度的指标。对于给定类别,IoU 的计算方法是将预测分割与实际分割之间的重叠面积除以结合面积(即预测分割或实际分割所覆盖的总面积)。
当语义分割包含多个类别,而不仅仅是一个类别时,要用到 mIoU。
平均联合交叉(mIoU)就是所有类别的平均 IoU。
要计算 mIoU,首先要分别计算每个类别的 IoU,然后将这些 IoU 值相加,再除以类别数。
mIoU 分值从 0 到 1 不等,1 表示所有类别的预测分割与实际分割完全重合,0 表示完全没有重合。mIoU 值越高,表示分割性能越好。
mAP 是Mean Average Precision的缩写,是用于评估目标检测和实例分割模型性能的常用指标。
在实例分割任务中,对于每个预测对象,我们都会计算其与真实对象的交并比(IoU)。如果 IoU 大于某个阈值(如 0.5),则预测结果被视为真阳性;反之,则为假阳性。
然后,我们绘制不同 IoU 阈值下的精度-召回曲线。平均精度(AP)就是精度-召回曲线下的面积。如果我们计算不同 IoU 阈值下的 AP,并取这些值的平均值,就得到了 mAP。
11点法求AP:
从本质上讲,mAP 量化了实例分割模型在不同 IoU 阈值下的性能。mAP 越高,说明模型性能越好。这一指标既考虑了分割的准确性(通过 IoU),也考虑了模型正确识别对象的能力(通过精确度和召回率)。
参考论文:Transformer-Based Visual Segmentation: A Survey, arxiv, 2023.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。