当前位置:   article > 正文

视觉分割的定义与性能度量

视觉分割的定义与性能度量

视觉分割的定义

下图来自李飞飞教授和其学生讲授的CS-231N

在这里插入图片描述

在transformer时代,目标检测和实例分割其实基本上可以看作是一个东西了。

语义分割(Semantic Segmentation)

其实是对输入图像进行像素级分类。

语义分割

语义分割不仅能分辨出图像中的物体,还能在像素级理解这些物体的边界,在深度学习时代,语义分割问题其实是一个密集预测问题。

实例分割(instance Segmentation)

在这里插入图片描述

不仅为每个像素分配一个类别标签,还能将同一类别的不同对象区分开来。

既能识别每个物体的类别,又能识别这些物体的单个实例。

理解不同物体之间的关系。

比语义分割和目标检测都更具挑战性。

全景分割(Panoptic Segmentation)

全景分割

  • 结合语义分割和实例分割,提供对场景的全面理解。

  • 为每个像素贴上类别标签和实例标签。

  • 全景分割法分配一个语义标签(如 “车”、“树”、“路”),并区分同一类别的多个实例(如车 1、车 2)。这意味着所有像素都会被赋予一个类别标签,属于 "事物 "类别(可数对象,如人、汽车等)的像素还会被区分为不同的实例。

  • "全景 "指的是 “看到一切”,反映了这项任务的目的是整合语义分割(能很好地处理 "物 "类,如天空、道路、草地等)和实例分割(能很好地处理 "物 "类)的优势,前者是无定形的,不可数的,而后者是可数的。

视频语义分割(Video Semantic Segmentation)
  1. 沿视频将图像中的每个像素归入某个类别。

  2. 探索分割的时间一致性(temporal consistency)

视频实例分割(Video instance Segmentation)
  1. 在像素级别分割和跟踪前景物体。

  2. 探索时间一致性(temporal consistency)和实例 ID 一致性(instance ID consistency)。

  3. 比图像实例分割更复杂,因为它需要处理物体运动、外观变化、遮挡以及各帧标签的时间一致性等问题。

  4. 算法还需要将当前帧中的分割实例与之前帧中的实例联系起来,以确保它们在不同帧的实例ID一致性。

视频全景分割(Video Panoptic Segmentation)

视频全景分割

  • 识别视频序列中每一帧中的每个像素并对其进行分类,并在不同帧中保持实例(单个对象)ID的一致性。
  • 这是一项复杂的任务,因为需要处理运动、外观变化、遮挡以及保持各帧标签的时间一致性(temporal consistency )。
  • 在视频的每一帧中,视频全景分割的目的是为每个像素分配一个类别标签(语义分割),区分同一类别的不同实例(实例分割),并在视频序列的不同帧中保持这些实例标签的一致性。这包括识别哪些像素属于 "物 "类(如天空、草地、道路),哪些属于 "事 "类(如人、车、狗),并在整个视频中跟踪 "事 "类的各个实例。
各任务对比

在这里插入图片描述

参考论文

  1. Transformer-Based Visual Segmentation: A Survey, arxiv, 2023.
  2. Largescale video panoptic segmentation in the wild: A benchmark, CVPR-2022.

视觉分割任务的指标与度量

Intersection over Union (IoU)交并比

IoU是一种量化预测分割与实况(实际)分割之间重叠程度的指标。对于给定类别,IoU 的计算方法是将预测分割与实际分割之间的重叠面积除以结合面积(即预测分割或实际分割所覆盖的总面积)。

当语义分割包含多个类别,而不仅仅是一个类别时,要用到 mIoU。
平均联合交叉(mIoU)就是所有类别的平均 IoU。
要计算 mIoU,首先要分别计算每个类别的 IoU,然后将这些 IoU 值相加,再除以类别数。

mIoU 分值从 0 到 1 不等,1 表示所有类别的预测分割与实际分割完全重合,0 表示完全没有重合。mIoU 值越高,表示分割性能越好。

Mean Average Precision(mAP,平均精度)

mAP 是Mean Average Precision的缩写,是用于评估目标检测实例分割模型性能的常用指标。

  • 准确率(Precision): 准确率是模型识别的实例中正确识别实例的比例。
  • 召回率(Recall): Recall 是在所有相关实例(本应被识别的实例)中被正确识别的实例的比例。

在实例分割任务中,对于每个预测对象,我们都会计算其与真实对象的交并比(IoU)。如果 IoU 大于某个阈值(如 0.5),则预测结果被视为真阳性;反之,则为假阳性。

mAP

然后,我们绘制不同 IoU 阈值下的精度-召回曲线。平均精度(AP)就是精度-召回曲线下的面积。如果我们计算不同 IoU 阈值下的 AP,并取这些值的平均值,就得到了 mAP。

11点法求AP:

在这里插入图片描述

从本质上讲,mAP 量化了实例分割模型在不同 IoU 阈值下的性能。mAP 越高,说明模型性能越好。这一指标既考虑了分割的准确性(通过 IoU),也考虑了模型正确识别对象的能力(通过精确度和召回率)。

在常见的分割论文中使用的有关数据集、任务和度量标准的精彩总结

有关数据集、任务和度量标准的总结

参考论文:Transformer-Based Visual Segmentation: A Survey, arxiv, 2023.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/771927
推荐阅读
相关标签
  

闽ICP备14008679号