当前位置：首页 > news >正文

YOLO系列目标检测算法-YOLOv1

news 来源：原创 2024/5/7 19:18:42

YOLO系列目标检测算法目录 - 文章链接

YOLO系列目标检测算法总结对比- 文章链接
YOLOv1- 文章链接
YOLOv2- 文章链接
YOLOv3- 文章链接
YOLOv4- 文章链接
Scaled-YOLOv4- 文章链接
YOLOv5- 文章链接
YOLOv6- 文章链接
YOLOv7- 文章链接
PP-YOLO- 文章链接
PP-YOLOv2- 文章链接
YOLOR- 文章链接
YOLOS- 文章链接
YOLOX- 文章链接
PP-YOLOE- 文章链接

本文总结：

与基于滑动窗口等多阶段目标检测算法不同，本文提出了一种简单的网络结构，把目标检测当做回归问题，可以直接预测目标
YOLO把输入的图片划分成S×S的网格，如果目标的中心落在某个网格单元中，则该网格单元负责去预测该目标；
每一个网格单元预测B个框和这些框置信度分数及其各标签分类概率，拿VOC20类目标检测数据集来说，输入一张448×448的图片，输出7×7×(B×5+20)个框；
另外设计了Fast YOLO，使用9层卷积层和每层使用较少的卷积核数，其他与YOLO完全一致；
YOLO也有一定缺陷，因为每个网格单元只能输出B个框且只能是一个类，所以对于较为密集的目标可能会有漏检的情况。

深度学习知识点总结

专栏链接:
https://blog.csdn.net/qq_39707285/article/details/124005405
此专栏主要总结深度学习中的知识点，从各大数据集比赛开始，介绍历年冠军算法；同时总结深度学习中重要的知识点，包括损失函数、优化器、各种经典算法、各种算法的优化策略Bag of Freebies (BoF)等。

文章目录

@[toc]

1. 简介
2. YOLO
2.1 网络设计
2.2 训练
2.3 推理
2.4 YOLO的限制

3. 结论

YOLO系列目标检测算法-YOLOv1

2015.6.8 YOLOv1：《You Only Look Once: Unified, Real-Time Object Detection》

1. 简介

YOLO——是一阶段目标检测的开端。之前的目标检测算法通常是调整分类器的用途以用作目标检测，例如像deformable parts model（DPM）这样的系统使用滑动窗口方法，分类器在整个图像上各个位置运行。R-CNN使用区域候选的方法，首先在图像中生成潜在的边界框，然后对这些候选框进行分类，分类后，使用后处理用于细化边界框，消除重复检测框，并基于场景中的其他目标重新扫描框。这些复杂的算法很慢，很难优化，因为每个单独的组件都必须单独训练。

本文将目标检测重新定义为一个单一的回归问题，直接从图像像素预测边界框坐标和类别概率。使用该系统，只需看一次图像（YOLO）即可预测存在的目标及其位置。

YOLO对完整图像进行训练，并直接优化检测性能。单个卷积网络同时预测多个边界框和这些框的类概率，与传统的目标检测方法相比，这种一体化模型有几个优点：

在这里插入图片描述

首先，YOLO非常快。因为YOLO将目标检测作为一个回归问题，所以不需要复杂的流水线处理过程。只需在测试时对新图像运行神经网络来预测检测结果；
YOLO在进行预测时对图像进行全局推理。与基于滑动窗口和区域候选的算法不同，YOLO在训练和测试期间可以看到整个图像，因此它隐式编码了关于类及其外观的上下文信息。Fast R-CNN是一种顶级检测方法，它会将图像中的背景错误地定位为物体，因为它看不到更大的背景。与Fast R-CNN相比，YOLO的背景错误数量不足一半；
YOLO学习目标的泛化表示。当在自然图像上进行训练并在图片上进行测试时，YOLO比DPM和R-CNN等顶级检测方法表现出色。由于YOLO具有高度的通用性，当应用于新域或例外输入时，它不太可能崩溃。

YOLO在精确度方面仍然落后于最先进的检测系统。虽然它可以快速识别图像中的对象，但它很难精确定位某些对象，尤其是小对象。

2. YOLO

YOLO联合所有的组件到一个神经网络中。网络使用整个图片的特征去预测每一个目标框，同时预测每个框的类别。YOLO的设计能确保端到端的训练和实时的预测速度，同时保证高的精度。

YOLO把输入的图片划分成S×S的网格，如果目标的中心落在某个网格单元中，则该网格单元负责去预测该目标。

每一个网格单元预测B个框和这些框置信度分数。这些置信度分数反映了模型对预测框包含目标的信心以及它认为框预测的准确性。定义置信度为 Pr(Object)*IOU^{truth}_{pred}。如果没有目标落入网格单元，则置信度分数应为0，否则值为预测的框与GT框的IOU。

每一个预测框有5个预测值：x,y,w,h和置信度。(x,y)表示框相对于网格单元边界的中心，(w,h)表示相对于整个图片的宽和高，最后置信度表示预测框和GT框的IOU。每一个网格单元同时预测C个类别的概率Pr(Class_i|Object)。这些概率取决于包含目标的网格单元，每个网格单元仅预测一组类别概率，与方框B的数量无关。

在测试时，将条件类别概率和单个框置信度值相乘，
$Pr(Class_i|Object)*Pr(Object)*IOU^{truth}_{pred}=Pr(Class_i)*IOU^{truth}_{pred}$
这给了每个预测框的特定类别的置信度得分，这些分数编码了该类出现在框中的概率以及预测框与GT目标的匹配程度。

对于VOC数据集，使用S=7,B=2,VOC数据集包含20个类别，所以YOLO最终预测7×7×(2×5+20)=7×7×30个向量。

2.1 网络设计

网络结构包含24层卷积层和2个全连接层，在3×3卷积后使用1×1卷积，整体网络结构图如图3所示。

另外还设计了一个Fast YOLO，用于突破目标检测速度的界限，Fast YOLO使用9层卷积层和每层使用较少的卷积核数，其他与YOLO完全一致。

2.2 训练

在ImageNet-1000分类数据集上预训练模型，预训练时使用图3结构中的前20层，再加上一个全局池化层，和一个全连接层。

然后转换模型用于检测训练，去除分类训练时添加的层，添加4个卷积层和2个全连接层，因为检测需要更细粒度的特征，所以改变输入图片大小从224×224到448×448。

最后一层预测类别概率和框坐标，使用图片的宽和高归一化预测框的宽和高，使其取值范围在[0,1]。将边界框x和y坐标参数化为特定网格单元位置的偏移量，以便它们也在0和1之间。

对最后一层使用线性激活函数，其他所有层使用以下leaky非线性激活函数：
$\phi(x)= \begin{cases} x, & \text{if $x>0$} \\ 0.1x, & \text{otherwise} \end{cases}$
使用误差平方和优化模型，之所以使用平方和是因为它很容易优化，但它与最大化平均精度的目标并不完全一致。它将定位误差和分类误差同等权重，会导致分类误差可能并不理想。此外，在每个图像中，许多网格单元不包含任何目标，这会将这些单元格的“置信度”分数推向零，通常会压倒包含目标的单元格的梯度。这可能导致模型不稳定，导致训练过早偏离。