摘要: 本文是目标检测系列文章——YOLO算法,介绍其基本原理及实现细节,并用python实现,方便读者上手体验目标检测的乐趣。
在之前的文章中,介绍了计算机视觉领域中目标检测的相关方法——RCNN系列算法原理,以及Faster RCNN的实现。这些算法面临的一个问题,不是端到端的模型,几个构件拼凑在一起组成整个检测系统,操作起来比较复杂,本文将介绍另外一个端到端的方法——YOLO算法,该方法操作简便且仿真速度快,效果也不差。
YOLO算法是什么?
YOLO框架(You Only Look Once)与RCNN系列算法不一样,是以不同的方式处理对象检测。它将整个图像放在一个实例中,并预测这些框的边界框坐标和及所属类别概率。使用YOLO算法最大优的点是速度极快,每秒可处理45帧,也能够理解一般的对象表示。
YOLO框架如何运作?
在本节中,将介绍YOLO用于检测给定图像中的对象的处理步骤。
- 首先,输入图像:
- 然后,YOLO将输入图像划分为网格形式(例如3 X 3):
- 最后,对每个网格应用图像分类和定位处理,获得预测对象的边界框及其对应的类概率。
整个过程是不是很清晰,下面逐一详细介绍。首先需要将标记数据传递给模型以进行训练。假设已将图像划分为大小为3 X 3的网格,且总共只有3个类别,分别是行人(c1)、汽车(c2)和摩托车(c3)。因此,对于每个单元格,标签y将是一个八维向量:
其中:
- pc定义对象是否存在于网格中(存在的概率);
- bx、by、bh、bw指定边界框;
- c1、c2、c3代表类别。如果检测对象是汽车,则c2位置处的值将为1,c1和c3处的值将为0;
假设从上面的例子中选择第一个网格:
由于此网格中没有对象,因此pc将为零,此网格的y标签将为:
意味着其它值是什么并不重要,因为网格中没有对象。下面举例另一个有车的网格(c2=1):
在为此网格编写y标签之前,首先要了解YOLO如何确定网格中是否存在实际对象。大图中有两个物体(两辆车),因此YOLO将取这两个物体的中心点,物体将被分配到包含这些物体中心的网格中。中心点左侧网格的y标签会是这样的:
由于此网格中存在对象,因此pc将等于1,bx、by、bh、bw将相对于正在处理的特定网格单元计算。由于检测出的对象是汽车,所以,c1和c3均为0。对于9个网格中的每一个单元格,都具有八维输出向量。最终的输出形状为。
使用上面的例子(输入图像:,输出:),模型将按如下方式进行训练:
使用经典的CNN网络构建模型,并进行模型训练。在测试阶段,将图像传递给模型,经过一次前向传播就得到输出y。为了简单起见,使用网格解释这一点,但通常在实际场景中会采用更大的网格(比如)。
即使一个对象跨越多个网格,它也只会被分配到其中点所在的单个网格。可以通过增加更多网格来减少多个对象出现在同一网格单元中的几率。
如何编码边界框?
如前所述,bx、by、bh和bw是相对于正在处理的网格单元计算而言的。下面通过一个例子来说明这一点。以包含汽车的右边网格为例:
由于bx、by、bh和bw将仅相对于该网格计算。此网格的y标签将为:
由于这个网格中有一个对象汽车,所以、。现在,看看如何决定bx、by、bh和bw的取值。在YOLO中,分配给所有网格的坐标都如下图所示:
bx、by是对象相对于该网格的中心点的x和y坐标。在例子中,近似和:
bh是边界框的高度与相应单元网格的高度之比,在例子中约为0.9:,bw是边界框的宽度与网格单元的宽度之比,。此网格的y标签将为:
请注意,bx和by将始终介于0和1之间,因为中心点始终位于网格内,而在边界框的尺寸大于网格尺寸的情况下,bh和bw可以大于1。
非极大值抑制|Non-Max Suppression
这里有一些思考的问题——如何判断预测的边界框是否是一个好结果(或一个坏结果)?单元格之间的交叉点,计算实际边界框和预测的边界框的并集交集。假设汽车的实际和预测边界框如下所示:
其中,红色框是实际的边界框,蓝色框是预测的边界框。如何判断它是否是一个好的预测呢?IoU将计算这两个框的并集交叉区域:
- IoU =交叉面积/联合的面积;
-
在本例中:
- IoU =黄色面积/绿色面积;
如果IoU大于0.5,就可以说预测足够好。0.5是在这里采取的任意阈值,也可以根据具体问题进行更改。阈值越大,预测就越准确。
还有一种技术可以显着提高YOLO的效果——非极大值抑制。
对象检测算法最常见的问题之一是,它不是一次仅检测出一次对象,而可能获得多次检测结果。假设:
上图中,汽车不止一次被识别,那么如何判定边界框呢。非极大值抑可以解决这个问题,使得每个对象只能进行一次检测。下面了解该方法的工作原理。
- 1.它首先查看与每次检测相关的概率并取最大的概率。在上图中,0.9是最高概率,因此首先选择概率为0.9的方框:
- 2.现在,它会查看图像中的所有其他框。与当前边界框较高的IoU的边界框将被抑制。因此,在示例中,0.6和0.7概率的边界框将被抑制:
- 3.在部分边界框被抑制后,它会从概率最高的所有边界框中选择下一个,在例子中为0.8的边界框:
- 4.再次计算与该边界框相连边界框的IoU,去掉较高IoU值的边界框:
- 5.重复这些步骤,得到最后的边界框:
以上就是非极大值抑制的全部内容,总结一下关于非极大值抑制算法的要点:
- 丢弃概率小于或等于预定阈值(例如0.5)的所有方框;
- 对于剩余的边界框:
- 选择具有最高概率的边界框并将其作为输出预测;
- 计算相关联的边界框的IoU值,舍去IoU大于阈值的边界框;
- 重复步骤2,直到所有边界框都被视为输出预测或被舍弃;
Anchor Boxes
在上述内容中,每个网格只能识别一个对象。但是如果单个网格中有多个对象呢?这就行需要了解 Anchor Boxes的概念。假设将下图按照网格划分:
获取对象的中心点,并根据其位置将对象分配给相应的网格。在上面的示例中,两个对象的中心点位于同一网格中:
上述方法只会获得两个边界框其中的一个,但是如果使用Anchor Boxes,可能会输出两个边界框!我们该怎么做呢?首先,预先定义两种不同的形状,称为Anchor Boxes。对于每个网格将有两个输出。这里为了易于理解,这里选取两个Anchor Boxes,也可以根据实际情况增加Anchor Boxes的数量:
- 没有Anchor Boxes的YOLO输出标签如下所示:
- 有Anchor Boxes的YOLO输出标签如下所示:
前8行属于Anchor Boxes1,其余8行属于Anchor Boxes2。基于边界框和框形状的相似性将对象分配给Anchor Boxes。由于Anchor Boxes1的形状类似于人的边界框,后者将被分配给Anchor Boxes1,并且车将被分配给Anchor Boxes2.在这种情况下的输出,将是大小。
因此,对于每个网格,可以根据Anchor Boxes的数量检测两个或更多个对象。
结合思想
在本节中,首先介绍如何训练YOLO模型,然后是新的图像进行预测。
训练
训练模型时,输入数据是由图像及其相应的y标签构成。样例如下:
假设每个网格有两个Anchor Boxes,并划分为网格,并且有3个不同的类别。因此,相应的y标签具有的形状。训练过程的完成方式就是将特定形状的图像映射到对应大小的目标。
测试
对于每个网格,模型将预测·3X3X16·大小的输出。该预测中的16个值将与训练标签的格式相同。前8个值将对应于Anchor Boxes1,其中第一个值将是该网络中对象的概率,2-5的值将是该对象的边界框坐标,最后三个值表明对象属于哪个类。以此类推。
最后,非极大值抑制方法将应用于预测框以获得每个对象的单个预测结果。
以下是YOLO算法遵循的确切维度和步骤:
- 准备对应的图像(608,608,3);
- 将图像传递给卷积神经网络(CNN),该网络返回(19,19,5,85)维输出;
-
输出的最后两个维度被展平以获得(19,19,425)的输出量:
- 19×19网格的每个单元返回425个数字;
- 425=5 * 85,其中5是每个网格的Anchor Boxes数量;
- 85= 5+80,其中5表示(pc、bx、by、bh、bw),80是检测的类别数;
- 最后,使用IoU和非极大值抑制去除重叠框;
YOLO算法实现
本节中用于实现YOLO的代码来自Andrew NG的GitHub存储库,需要下载此zip文件,其中包含运行此代码所需的预训练权重。
首先定义一些函数,这些函数将用来选择高于某个阈值的边界框,并对其应用非极大值抑制。首先,导入所需的库:
然后,实现基于概率和阈值过滤边界框的函数:
之后,实现计算IoU的函数:
然后,实现非极大值抑制的函数:
随机初始化下大小为(19,19,5,85)的输出向量:
最后,实现一个将CNN的输出作为输入并返回被抑制的边界框的函数:
使用yolo_eval函数对之前创建的随机输出向量进行预测:
表示对象在图像中的可能性,返回检测到的对象的(x1,y1,x2,y2)坐标,表示识别对象所属的类。
现在,在新的图像上使用预训练的YOLO算法,看看其工作效果:
在加载类别信息和预训练模型之后,使用上面定义的函数来获取·yolo_outputs·。
之后,定义一个函数来预测边界框并在图像上标记边界框:
接下来,将使用预测函数读取图像并进行预测:
最后,输出预测结果:
以上就是YOLO算法的全部内容,更多详细内容可以关注darknet的官网。
本文作者:【方向】
阅读原文