当前位置:   article > 正文

实训day1

实训day1

实训day1

yolo1过程学习

将对象检测看成一个空间分离边界框的回归问题。
每个图像生成一个bounding boxes,对这些boxes进行分类。yolo是用一个卷积网络同时预测多个边界盒和这些盒的类概率。
将一个图像分成s×s的格,如果物体的中心在格中,那么这个格子探测到了该物体。 每个格子都会预测bounding boxes 和 confidence scores 。这些 confidence scores 反映了模型对这个格子是否确定该物体的自信度,公式是在这里插入图片描述
如果格子不包含该物体,那自信分数是0。我们想要自信分数与IOU相等。每个bounding boxes有五个预测值:x,y,w,h,和自信度。(x,y)是box中心坐标,w和h是整个图片的宽度和高度,最后可信度预测代表了在预测箱和任何可信box之间的IOU。
每个格子有B个bounding box。
这个模型被用在了e PASCAL VOC detection dataset。
这个网络有24个卷积层,以及两个完整的连接层。用了1×1还原层和3×3卷积层。
我们的检测网络有24个卷积层,然后是2个全连接层。交替的1×1卷积层减少特征空间从前面的层。我们以一半分辨率(224×224输入图像)对ImageNet分类任务的卷积层进行预训练,然后将分辨率提高一倍进行检测。

训练

先预处理了卷积层在imagenet1000层的竞争数据集,为了预处理我们用最先的20层卷积层通过一个平均池化层和完全连接层。
接着我们转换了这个模型去进行检测。增加卷积和连接层去预处理网络可以提升表现。因此我们加了四个卷积层和两个完全连接层。检测时我们增加了输入分辨率:448*448
?class指的是什么?bounding box的概念?IOU概念是什么?groundtruth是什么?
我们最终层预测了类可能性和的坐标。我们规格化了bounding box的长和宽,使他们在0和1之间。我们参数化了boundingbox的坐标xy,以格子为坐标,使xy也在01之间。
我们用了一个线性作用函数对最终层和其他层。在这里插入图片描述
我们用了一个误差分析:sum-squared error,但他和目标并不切合。它同等化衡量地方化误差和分类误差,这并不合理。这都促使了每个格子的可信度分数,通常超过物体的大小。这可能导致模型的稳定性,使得训练太早分岔。
为了避免这些,我们增加了boundingbox的协调预测损失,减少了可信度预测的损失。我们用两个参数去完成它。在这里插入图片描述
sum-squared error同样与重量误差相同,我们的误差矩阵应该能反映大box的小偏差没有小box的小偏差重要。我们对boundingbox的长宽进行了开方。
yolo预测每个格子的多个boundingbox。在训练的时候我们只想要一个boundingbox预测器去代表一个物体。我们标记了一个预测其去预测一个物体基于一个标准:哪个预测有最高的现IOU值和ground truth.这导致了boundingbox之间的专门化(specialization是什么?)每个预测器有了更好的结果因为预测确定的尺寸,宽比,物体的类型,增加整体召回。
如果该网格单元中存在对象,则损失函数只会影响分类错误(前面讨论过的条件分类概率)。如果该预测变量对地面真值框“负责”(即该网格单元中任何预测变量的IOU最高),它也只会影响边界框坐标误差。
我们根据PASCAL VOC 2007和2012的培训和验证数据集对网络进行了135个时期的培训。在2012年进行测试时,我们还包含了VOC 2007测试数据进行培训。在整个训练过程中,我们使用的批次大小为64,动量为0.9,衰减为0.0005。我们的学习率时间表如下:在第一个时期,我们将学习率从10-3缓慢提高到10-2。
如果我们以较高的学习率开始,则由于不稳定的梯度,我们的模型经常会发散。我们继续训练75个时代的10 -2,然后训练30个时代的10 -3,最后训练30个时代的10 -4。
为了避免过度拟合,我们使用广泛的数据扩充。在第一个连接层之后,速率为.5的退出层可防止层之间的共同适应。对于数据扩充,我们引入了随机缩放和最多原始图像大小20%的转换。我们还将在HSV颜色空间中将图像的曝光和饱和度随机调整至1.5倍。

工作过程总结

先前的检测系统重新利用分类器或定位器来执行检测。 他们将模型应用于多个位置和比例的图像。 图像的高得分的区域将被视为检测成功。

我们使用完全不同的方法。 我们将单个神经网络应用于完整图像。 该网络将图像划分为多个区域,并预测每个区域的边界框和概率。 这些边界框由预测的概率加权。

与基于分类器的系统相比,我们的模型具有多个优势。 它在测试时查看整个图像,因此其预测由图像中的全局上下文提供。 它还像R-CNN这样的系统需要一个网络评估来进行预测,而R-CNN单个图像需要数千个评估。 这使其速度非常快,比R-CNN快1000倍以上,比Fast R-CNN快100倍。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/860962
推荐阅读
相关标签
  

闽ICP备14008679号