基于跳跃连接金字塔模型的小目标检测

2019-02-27 08:55单义杨金福武随烁许兵兵

智能系统学报 2019年6期

单义，杨金福，武随烁，许兵兵

（1.北京工业大学信息学部，北京 100124; 2.计算智能与智能系统北京重点实验室，北京 100124）

目标检测是实现场景理解的基础，是计算机视觉领域的一项重点研究内容。自从深度卷积网络大幅度提高图像分类的准确率之后，深度卷积神经网络也广泛应用于目标检测中。虽然深度卷积神经网络在目标检测方面取得了巨大的进步，但是小目标的检测仍存在检测准确率较低的问题。

现阶段基于深度学习的目标检测算法主要分为两类，一是基于分类的目标检测方法。基于分类的目标检测算法又称为两阶段(two-stage) 模型，首先选取候选区域，然后对候选区域进行分类和位置回归，最终输出检测的结果。2014 年Girshick 等[1]首次提出基于区域提取的R-CNN 算法。2015 年Girshick[2]又提出一种改进的Fast RCNN 算法，将图像经过基础网络处理之后，再传入R-CNN 子网络，共享卷积运算。但Fast RCNN 在提取区域候选框时仍然使用选择性搜索算法(Selective Search[3])，增加了算法耗时，运行速度慢。针对Fast R-CNN 算法的缺点，2015 年Ren等[4]提出Faster R-CNN 算法，用候选区域生成网络(regional proposal networks, RPN)来代替选择性搜索算法。另一类是基于回归的目标检测算法，又称为一阶段(one-stage) 模型。2016 年Redmon 等[5]提出了新的目标检测算法YOLO(You Only Look Once)。YOLO 算法将目标检测框架看作空间上的回归问题。但是YOLO 算法存在定位精度、召回率等较低的问题，且对尺寸较小的物体检测效果不好，泛化能力相对较弱。为了解决YOLO 算法的缺陷，2016 年Liu 等[6]提出SSD(single shot multiBox detector)算法，利用多层特征图进行检测。

此外，针对小目标的物体检测存在的问题，有学者提出了新的检测网络模型。2016 年Bell 等[7]提出一种利用感兴趣区域内外信息进行物体检测的模型(inside-outside net, ION)。2017 年Lin 等[8]在Faster R-CNN 网络的基础上提出一种具有横向连接的特征金字塔网络(feature pyramid networks,FPN),利用多尺度特征和自上而下的结构实现目标检测。FPN 只利用顶层的特征进行检测，虽然信息丰富，但是经过层层池化，很多细节特征信息会丢失，而这些信息对小目标检测具有重要意义。Fu 等[9]针对SSD 算法在小目标检测上存在的问题，提出一种改进的DSSD(deconvolutional single shot detector)算法，将SSD 算法的基础网络更改为ResNet-101[10]，增强了网络的特征提取能力，结合多尺度信息，提高了检测结果。然而，上述网络忽略了低层特征与高层特征之间的联系，并且对于不同尺度大小的物体，卷积操作的感受野是不同的，在基础网络中利用同一种大小的卷积核进行卷积运算，不能很好提取不同大小的物体的感受野信息。

针对上述问题，本文提出基于跳跃连接金字塔和全局感受野的网络结构，来融合不同尺度的高层与底层的特征信息，并利用不同大小的卷积核和不同步长的空洞卷积[11]来提取全局特征信息。实验结果表明，所提出的模型能有效改善小目标检测结果。

1 算法模型

图1 是本文提出的检测模型的整体结构图。网络模型基于前馈深度卷积网络，通过跳跃连接的金字塔(skip feature pyramid network)结构。将高层特征与低层特征相融合，在基础网络中加入全局感受野模块(global receptive field, GRF)来提取不同尺度的物体的全局特征信息。该网络模型在所有特征层中选取4 层不同尺度的高层与低层特征图进行预测，在预测层产生固定数量的包围盒(anchor boxes)和相应的类别概率值，最后通过非极大值抑制(non-maximum suppression)来获得最终的预测框。

图1 基于跳跃连接金字塔的小目标检测模型Fig.1 Title Skip feature pyramid network with global receptive field for object detection

为了能够清晰地展示本文提出的网络结构，只展示用于预测层的特征图，采用不同的颜色表示不同的特征层之间的融合，构建跳跃连接金字塔结构，并且提出利用全局感受野模块来提取网络全局特征信息。

1.1 跳跃连接金字塔

如图2 所示，(a)～(c)为现阶段应用较多的深度网络检测结构。图2(d)为本文提出的跳跃连接金字塔网络结构。图2(a)中只利用深度网络中最后一层特征图进行预测，其中YOLO 算法就是采用图2(a)的结构形式，该网络具有很高的检测速度，但是检测的准确率较低。图2(b)是对图2(a)算法结构的改进，通过在不同的尺度的高层特征上预测，有效地弥补图2(a)结构中存在的问题，改善了检测结果。图2(c)是一种自顶而下的金字塔结构模型，不仅采用不同的特征层进行预测，而且融合了相邻特征图之间的信息。但是这种结构的网络模型忽略了不同高层特征图与低层特征图之间的联系。针对上述问题，提出如图2(d)所示的跳跃金字塔结构模型，采用跳跃连接的方式，通过选择不同步长的反卷积进行上采样高层特征图，并使用逐像素求和的计算方法来融合不相邻的特征图之间的信息。

在深度卷积网络中，网络的最深层的特征图包含最多的抽象特征信息。因此利用提出跳跃金字塔结构，来融合不同的高层和低层特征图之间的信息，不仅能有效利用不同特征层之间的尺度信息，而且融合了高层特征图与低层特征图之间的细节信息。

图2 不同的结构形式的预测网络Fig.2 Different structure of predicting network

跳跃连接的金字塔的细节结构如图3 所示。通过选择基础网络中的高层特征图，对每一个高层特征图利用大小为 3×3 通道数为256 卷积核进行卷积操作。这样做的目的是将不同特征层的特征图的通道数变成相同的数量，以便进行融合计算。在统一了每一层的通道数之后，采用 2 ×2 步长为2 的反卷积操作来把相邻特征层的特征图进行上采用，上采样之后不同特征层就变为相同的大小。利用 4×4 步长为4 的反卷积来上采样不相邻的特征图。反卷积计算特征图的大小计算公式为

式中：i示输入特征图的尺寸；f为卷积核的大小；p为填充的像素数；s为反卷积的步长。最后对不同特征层不同通道数的特征层，可以用每个像素对应点的和来作为融合之后的特征图。

图3 跳跃连接的金字塔的细节结构Fig.3 The detailed structure of skip feature pyramid

1.2 全局感受野模块

在大多数的检测模型中，多采用自上而下的结构，忽略了对于不同的大小的物体。而卷积神经网络的感受野是不同的，因此提出在网络中加入横向连接的结构，采用不同大小的卷积核和不同步长的空洞卷积来增强网络全局的感受野。与只利用一种卷积核的网络结构相比，使用不同的大小的卷积核和不同步长的空洞卷积能有效提取不同尺度大小物体的特征。首先，利用 1 ×1 的卷积层，改变特征图的通道数，减少特征模型的计算量。然后，利用 1 ×1、 3×3 和 5 ×5 三种不同的卷积核和3×3步长分别为1, 3 和5 的空洞卷积[11]来提取不同尺度的特征信息。进而把获取的特征通道进行连接，用 1 ×1 的卷积核将通道数变换为原来特征图相同的通道数，并与原来的特征图对应像素点进行叠加，既保留原本网络模型的特征，又加入了不同大小感受野的特征信息，有效改善提取较小尺寸的物体特征。全局感受野结构如图4 所示。

图4 全局感受野结构Fig.4 The network of global receptive field

1.3 包围框的设置

为了更好地利用图像的特征信息，选取VGG16中4 层不同尺度的特征图，每一层对应的步长分别为8、16、32、64 个像素，在特征图的每个像素点采用不同大小比例的包围盒进行预测。每一层特征图，设置不同大小的比例包围盒来进行预测不同大小的物体，纵横比分别为0.5、1.0、2.0。在训练时，当包围盒与图像标注(ground truth)的重叠面积比例大于0.5 时，即认为该包围盒中存在目标物体。

1.4 损失函数

考虑到正负样本的数量相差较大，与SSD 类似，本文采用负挖掘来解决极端的前景背景类别不平衡的问题。即在训练中，不使用所有的负样本包围盒，也不随机选择负样本包围盒，而是将负样本的损失进行排序，选择其中损失最大的负样本作为最后预测的样本，并且控制最终的正负样本比例为3∶1。与SSD 不同的是，本文在进行预测之前，先对网络预测产生的包围盒进行前景和背景的二分类滤除。这样做的目的在于有效减少负样本的数量。网络的损失函数为

式中：i是每个训练批次中包围盒的索引；是每个批次图像中每个图像标注的对应类别标签；是每个图像标注对应的坐标；pi和xi是网络预测的包围盒中是否有目标和相应的坐标信息；ci和ti是所预测的目标包围盒中物体的类别和相应的坐标信息；Nconv和Np分别为特征提取网络和预测网络中正样本包围盒的数量；lb是特征提取网络输出的二分类的交叉熵损失，即判断包围盒中是否有目标；lm是多分类任务的置信度。与Fast R-CNN 算法相似，lr为smooth L1 回归损失。只有当包围盒中时，即预测值为真时才会计算相应的损失。其中位置损失函数lr的具体损失函数如下：

其中：cx、cy、w、h分别表示包围盒的中心坐标以及宽和高。(gcx,gcy,gw,gh) 表示图像标注信息中的包围盒对应的中心坐标以及宽和高， (dcx,dcy,dw,dh) 表示默认包围盒的中心坐标以及宽和高，(xcx,xcy,xw,xh)表示预测的包围盒的中心坐标以及宽和高。

2 实验结果及分析

本文以VGG16[12]作为基础的特征提取网络，并且在ILSVRC CLS-LOC 数据集上进行了预训练。为了验证所提出算法的有效性，分别在PASCAL VOC[13]和MS COCO[14]数据集上进行了实验。PASCAL VOC 和MS COCO 数据集中类别数量分别为20 和80，并且每个类别都有标注信息和对应的类别信息。

2.1 PASCAL VOC

在PASCAL VOC 数据上，所有的算法模型都在VOC2007 和VOC2012 数据集上进行训练，测试在VOC2007 数据集上进行测试。一共训练了140 k 次，学习率不断衰减，设置0～80 k 的学习率为 1 0-3，80 k 到100 k 的学习率下降为 1 0-4，100 k到120 k 学习率下降为 1 0-5，120k～140 k 的学习率为 1 0-6。考虑到GPU 的处理能力，设置不同步长的学习批次，对于输入大小为 320×320 的图像，处理批次设置为32，而对于输入图像 512×512，设置的批次为16。动量和权值衰减分别设置为0.9和0.000 5。

表1 为本文的实验结果和其他网络检测结果的对比。输入图像的尺寸对模型的输出结果有较大影响。从表中可以看出，在输入图像的尺寸为320×320 时，平均准确率为80.1%，速度为31.2 f/s。在输入图像的尺寸为 5 12×512 时，平均准确率为81.9%，速度为 18.2 f/s。

表1 PASCAL VOC2007 的不同网络模型的检测结果Table 1 Detection results on PASCAL VOC dataset

表2 为网络模型在PASCAL VOC2007 测试集的不同类别平均准确率的结果。从表中可以看出，本文方法在小目标类别中的平均检测准确率明显高于其他网络模型。本文所提出的网络整体的平均准确率高于其他网络1%，其中如bird、sheep、plant 等小目标比其他网络最优准确率分别高2.5%、3.2%、2.7%，证明了提出网络的有效性。

表2 PASCAL VOC2007 不同类别的检测结果Table 2 Object detection results on PASCAL VOC 2007 test set

图5 为本文的方法和SSD 方法在VOC2007 数据集的可视化结果对比图。第一行是SSD 算法的检测结果，第二行是本文提出的检测方法的实验结果。从图中可以看出，本文方法对于图像中较小尺寸的鸟和人的检测效果明显改善，而且对于正确检测的物体的置信度也有了较大的提高。

2.2 MS COCO

为了进一步验证本文提出的模型在更多类别、更多数量的数据集上的有效性，我们在MS COCO 数据集上进行了实验，实验结果如表3 所示。MS COCO 数据集的评价指标不同于PASCAL VOC。以不同的IOU 进行评价，对图像分为3 个规模大小进行评价。其中AP 表示准确率，AR 表示召回率。APs 和ARs 分别表示小目标的检测准确率和召回率，以320×320 尺寸的图像为例，本文方法在小目标准确率和召回率分别高于其他最优的模型2.4%和4%。

图5 在VOC2007 上可视化的实验结果对比Fig.5 The visual comparison of experimental results on VOC2007 test

表3 MS COCO 数据集检测结果Table 3 Object detection results on MS COCO test-dev set.

3 结束语

针对小目标检测准确率较低的问题，本文提出了一种基于跳跃连接金字塔的小目标检测模型。通过跳跃连接的特征金字塔融合高层与低层特征图信息，并且利用不同大小卷积和不同步长空洞卷积的横向结构来提取全局特征信息，有效弥补因连续池化而造成的信息丢失。整个网络模型以端到端方式进行训练，并且在PASCAL VOC和MS COCO 数据集上进行了实验，实验结果表明本文提出的模型在小目标的检测准确率方面明显优于其他算法模型。