吴恩达《深度学习专项》笔记（十二）：目标检测与语义分割简介 (YOLO, U-Net)_吴恩达深度学习

作者：小蓝xlanll | 2024-06-14 16:54:06

踩

吴恩达深度学习

这节课中，我们要学习计算机视觉中最重要的任务之一——目标检测任务。我们会先认识目标定位和关键点检测这两个比较简单的任务，慢慢过度到目标检测任务。之后，我们会详细学习目标检测的经典算法YOLO。最后，我们会稍微认识一下语义分割任务及适用于此问题的U-Net架构。

课堂笔记

目标定位

在图像分类问题中，给定一幅图片，我们只要说出图片里的物体是什么就行了。在这堂课要讨论的任务中，我们还要多做一件事——定位。我们要先用边框圈出图中的物体，再说出框里的物体是什么。这叫做带定位(localization)的分类问题。更进一步，如果我们不再是只讨论一个物体，而是要把图片中所有物体都框出来，并标出每一个物体的类别，这就是目标检测问题，

我们对分类任务的神经网络结构已经很熟悉了。那么，带定位的分类该使用怎样的网络呢？实际上，一个边框可以用边框中心和边框宽高这四个量表示。除了softmax出来的分类结果外，我们只要让网络再多输出四个数就行了。如下图所示：

这里，要统一一下对于边框的定义。我们用 $b_x, b_y$ 表示边框的中心坐标， $b_h, b_w$ 表示边框的高、宽。

来看一下标签 $y$ 的具体写法。假设一共有四类物体：行人、汽车、摩托车、背景（没有物体）。那么，标签 $y$ 应该用 $y=[p_c, b_x, b_y, b_h, b_w, c_1, c_2, c_3]^T$ 表示。其中， $p_c$ 表示图中有没有物体。若 $p_c=1$ ，则 $c_1, c_2, c_3$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/718787