当前位置:   article > 正文

吴恩达《深度学习专项》笔记(十二):目标检测与语义分割简介 (YOLO, U-Net)_吴恩达深度学习

吴恩达深度学习

这节课中,我们要学习计算机视觉中最重要的任务之一——目标检测任务。我们会先认识目标定位和关键点检测这两个比较简单的任务,慢慢过度到目标检测任务。之后,我们会详细学习目标检测的经典算法YOLO。最后,我们会稍微认识一下语义分割任务及适用于此问题的U-Net架构。

课堂笔记

目标定位

图像分类问题中,给定一幅图片,我们只要说出图片里的物体是什么就行了。在这堂课要讨论的任务中,我们还要多做一件事——定位。我们要先用边框圈出图中的物体,再说出框里的物体是什么。这叫做带定位(localization)的分类问题。更进一步,如果我们不再是只讨论一个物体,而是要把图片中所有物体都框出来,并标出每一个物体的类别,这就是目标检测问题,

我们对分类任务的神经网络结构已经很熟悉了。那么,带定位的分类该使用怎样的网络呢?实际上,一个边框可以用边框中心和边框宽高这四个量表示。除了softmax出来的分类结果外,我们只要让网络再多输出四个数就行了。如下图所示:

这里,要统一一下对于边框的定义。我们用 b x , b y b_x, b_y bx,by表示边框的中心坐标, b h , b w b_h, b_w bh,bw表示边框的高、宽。

来看一下标签 y y y的具体写法。假设一共有四类物体:行人、汽车、摩托车、背景(没有物体)。那么,标签 y y y应该用 y = [ p c , b x , b y , b h , b w , c 1 , c 2 , c 3 ] T y=[p_c, b_x, b_y, b_h, b_w, c_1, c_2, c_3]^T y=[pc,bx,by,bh,bw,c1,c2,c3]T表示。其中, p c p_c pc表示图中有没有物体。若 p c = 1 p_c=1 pc=1,则 c 1 , c 2 , c 3 c_1, c_2, c_3 c1,c2

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/718787
推荐阅读
相关标签
  

闽ICP备14008679号