摘要
针对目前主流算法对小目标检测存在计算量大与准确率较低的问题,本文以轻量级网络MobileNetV3代替YOLOv4中的主干网络,并将颈部网络中的一部分普通卷积用深度可分离卷积替代,同时针对小目标检测定义一个新的损失函数IF-EIoU Loss,由此构建了MDS-YOLO目标检测模型.该模型具有较高的检测速度,且针对小目标具有较好的检测性能.为了验证模型的有效性,分别在MS COCO数据集和Visdrone2019数据集上进行了实验.与 YOLOv4算法相比,在MS COCO数据集上,MDS-YOLO算法的平均检测精度提升了1.5个百分点,对于小目标的检测精度提升了3.3个百分点,检测速度也从31帧/s提升至36帧/s;在Visdrone2019数据集上,MDS-YOLO算法将平均检测精度从YOLOv4的14.9%提升至16.3%.实验结果表明,本文提出的MDS-YOLO算法能有效提升小目标检测精度.
目标检测是计算机视觉中的一项重要任务,主要用于识别和定位图像或视频中的特定物体或区域,具体过程是在输入的图像或视频中找出感兴趣的目标,将其框选出来,并给出它们的类别标签和位置信
基于深度学习的目标检测算法在大型数据集上的平均检测精度都比较理想,但对小目标的检测仍然存在一些困难.这主要是因为小目标所包含的特征信息比大目标要少得多,导致通用的目标检测算法无法准确地识别出图像或视频中的小目标.因此,专门针对小目标的检测算法应运而生.文献[
本文在YOLOv4算法的基础上从输入图像、网络结构、损失函数三个部分对该算法进行了优化和改进,提出了轻量级网络+深度可分离+YOLO (MobileNet+depthwise separable+YOLO, MDS-YOLO)模型.优化和改进可概括如下.
1)输入图像:先将原始图像分割成N帧局部图像并设置重叠区域,再分别输入检测网络进行目标检测,然后将网络生成的目标候选框和类别、位置信息整合在一起投射回原始图像上,最后经过非极大值抑制去除重复的候选框后输出预测结果.通过这样的操作,可以尽可能减少检测过程中图像特征信息的丢失,保留更多的细节信息,从而提取到更多的小目标特征,提升小目标的检测精度.
2)网络结构:将YOLOv4算
3)损失函数:提出了新的位置损失函数IF-EIoU Loss.该损失函数对于与真实边界框重合度较小的低质量预测框给予更大的损失权重,使网络更加关注难以检测的小目标物体,从而提升网络对于小目标预测框的回归精度.
1 小目标检测算法设计
本模型对YOLOv4算法的输入图像、网络结构、损失函数3个部分进行优化和改进.
1.1 图像分割
一般的目标检测算法会固定输入图像的尺寸,而在实际应用中需要检测的图像都是大小各异的,因此需要通过压缩、剪裁等方式将图像调整到合适的大小才能输入检测网络,然后对图像进行多次下采样得到输出特征
1.1.1 根据原始图像大小确定分割数N
(1) |
式中:分别代表图像在横向和纵向的像素个数;分别是横向分割超参数和纵向分割超参数;分别代表图像在横向和纵向的分割数.
由
1.1.2 对分割后的局部图像设置重叠区域
为了有效降低目标物体被分割截断的风险,本文对分割后的局部图像扩充重叠区域.重叠区域的大小由分割后的局部图像的尺寸确定,若原始图像大小为,则分割后的局部图像尺寸由
(2) |
重叠区域的横向尺寸和纵向尺寸分别取局部图像横向尺寸和纵向尺寸的15%,这样的设置使得重叠区域的大小随着图像尺寸和分割数的变化而灵活调整,始终保持在合理的范围内.
1.1.3 对目标检测网络得到的目标框进行非极大值抑制操作
所有的局部图像检测完成后,会将目标检测网络生成的候选框和类别及置信度信息全部投射到原始图像上,因为重叠区域是由相邻的局部图像共享的,所以重叠区域的目标可能会被不同的局部图像重复检测.投射到原始图像对应位置后可能会产生大量的对相同目标的重复候选框,所以将所有的目标预测框投射到原始图像后,对原始图像整体做一次非极大值抑制(non-maximum suppression, NMS
1.2 网络结构设计
MDS-YOLO网络结构与YOLOv

图1 MDS-YOLO的网络结构
Fig.1 Network Structure of MDS-YOLO
在主干网络设计中,将YOLOv4中的主干特征提取网络CSPDarknet-53替换为MobileNetV3(见
1.3 损失函数优化
目标检测算法的损失函数由3部分组成:定位损失函数、置信度损失函数和类别损失函数.其中,定位损失函数用于衡量模型对检测框位置的预测精度,也就是模型预测的目标边界框与真实边界框之间的拟合程度;置信度损失函数则是用于度量模型对检测框置信度(即预测框是否包含目标)的预测精度;而类别损失函数用于衡量模型对检测框类别的预测精
(3) |
式中:;;而分别是预测框的中心坐标及宽与高;分别是真实框的中心坐标及宽与高;分别是包含预测框与真实框的最小矩形的对角线及宽与高.
Focal-EIoU Loss对于IoU越大的高质量预测框给予的损失权重越大,对于IoU越小的低质量预测框给予的损失权重越小.但是现有的目标检测算法对于小目标的检测精度本身就很低,这就意味着小目标的预测边界框中误差大的低质量预测框占比较大,如果根据Focal-EIoU Loss的思想,对低质量预测框给予的损失权重较小,在训练时会极大影响对小目标预测边界框的回归精度,所以本文反其道而行之,基于Focal-EIoU Loss提出一种新的损失函数IF-EIoU Loss,其定义如下:
(4) |
与Focal-EIoU Loss的思想相反,IF-EIoU Loss对于IoU较小的低质量预测框给予较大的损失权重,使网络更多关注难以检测的小目标样本,从而提升网络对于小目标预测边界框的回归精度.
由此可得整体损失函数为
(5) |
2 实验结果与分析
为了验证目标检测算法MDS-YOLO对于小目标检测的性能,本文分别在经典的目标检测数据集MSCOCO(分辨率小于的目标定义为小目标,分辨率大于的目标定义为大目标,其他定义为中等目标)和无人机拍摄图像数据集Visdrone2019(绝大部分为小目标,不区分大中小目标)上进行了实验,并将实验结果与其他主流的目标检测算法进行比较,而且进行了消融实验.
2.1 实验环境及参数设置
实验的硬件平台和软件平台如
配置 | 型号 |
---|---|
操作系统 | Win10 |
处理器 | Intel(R) Xeon(R) Silver 4210R CPU @ 2.40 GHz |
内存 | 64 G |
显卡 | NVIDIA GeForce RTX 3060 |
深度学习框架 | Pytorch |
编程语言 | Python 3.5 |
训练分为两个阶段,即冻结主干网络阶段和解冻阶段,使用Adam优化算法进行优化.为了提高训练效率,采用了冻结训练的方式,在特征提取阶段使用了MobileNetV3在MS COCO数据集上的训练权重.在冻结阶段,epoch设为50,batch size设为8;在解冻阶段,epoch同样设为50,但batch size降为4,学习率均为0.000 5.
2.2 实验结果及分析
2.2.1 消融实验
本节验证各种模块与优化方法对算法的贡献大小.
1) 不同网络结构的检测速度、参数量及FLOPs对比实验.
为了验证将主干特征提取网络替换成轻量级网络和将普通卷积替换成深度可分离卷积(DPC)的优化效果,本文在MS COCO数据集上做了关于检测速度与参数量及FLOPs的对比实验,其中,图像的输入尺寸均为(未进行图像分割).
从
模型 序号 | 网络结构 | FPS/(帧· | 参数量/MB | FLOPs/MB |
---|---|---|---|---|
1 | CSPDarknet-53 | 31 | 64.36 | 45.84 |
2 | CSPDarknet-53+DPC | 44 | 42.95 | 35.19 |
3 | MobileNetV2 | 46 | 39.94 | 21.21 |
4 | MobileNetV2+DPC | 56 | 18.54 | 10.56 |
5 | MobileNetV3 | 52 | 40.51 | 20.81 |
6 | MobileNetV3+DPC(本文) | 61 | 19.10 | 10.16 |
2) 轻量级网络、深度可分离卷积、图像分割和IF-EIoU损失函数的精度对比实验.
为了验证轻量级网络、深度可分离卷积、图像分割和IF-EIoU损失函数对小目标检测精度的影响,本文在MS COCO数据集上进行了平均精度(APCOCO)与小目标检测精度(APS
从
模型 | APCOCO/% | APS/% |
---|---|---|
去“MobilenetV3” | 43.8 | 26.1 |
去“DPC” | 42.6 | 25.4 |
去“图像分割” | 40.9 | 24.1 |
去“IF-EIoU Loss” | 43.8 | 26.5 |
本文 | 44.5 | 27.6 |
2.2.2 在MS COCO数据集上的检测结果
在保证实验环境一致的前提下,本文将改进后的MDS-YOLO算法和原YOLOv4算法在MS COCO数据集的训练集上进行训练并在测试集上进行检测,对比其检测速度和检测精度.MDS-YOLO的横向分割超参数和纵向分割超参数均设置为1,YOLOv4(未进行图像分割)和MDS-YOLO(加入图像分割)的输入尺寸都为.本文还选择了一些具有代表性的两阶段目标检测算法和单阶段目标检测算法加入对比,如Faster R-CN
从
算法 | 主干网络 | 输入尺寸/(像素×像素) | APCOCO/% | AP50/% | AP75/% | APS/% | APM/% | APL/% | FPS/(帧· |
---|---|---|---|---|---|---|---|---|---|
两阶段算法: | |||||||||
Faster R-CN | VGG-16 | ~ | 24.2 | 45.3 | 23.5 | 7.7 | 26.4 | 37.1 | 4 |
Faster R-CNN++ | ResNet-101 | ~ | 34.9 | 55.7 | 37.4 | 15.6 | 38.7 | 50.9 | — |
Faster R-CNN w/ FP | ResNet-101 | ~ | 36.2 | 59.1 | 39.0 | 18.2 | 39.0 | 48.2 | — |
Mask R-CN | ResNeXt-101 | ~ | 39.8 | 62.3 | 43.3 | 22.1 | 43.2 | 51.2 | 2 |
PANet(multi-scale | ResNeXt-101 | ~ | 47.4 | 67.2 | 51.8 | 30.1 | 51.7 | 60.0 | 2 |
单阶段算法: | |||||||||
YOLOv | DarkNet-19 | 21.6 | 44.0 | 19.2 | 5.0 | 22.4 | 35.5 | 21 | |
SS | ResNet-101 | 31.2 | 50.4 | 33.3 | 10.2 | 34.5 | 49.8 | — | |
RetinaNe | ResNet-101-FPN | 39.1 | 59.1 | 42.3 | 21.8 | 42.7 | 50.2 | — | |
YOLOv | DarkNet-53 | 31.0 | 55.3 | 32.3 | 15.2 | 33.2 | 42.8 | 16 | |
FCO | ResNet-101-FPN | 41.5 | 60.7 | 45.0 | 24.4 | 44.8 | 51.6 | — | |
YOLOv | CSPDarknet-53 | 43.0 | 64.9 | 46.5 | 24.3 | 46.1 | 55.2 | 31 | |
DET | ResNet-50 | 42.0 | 62.4 | 44.2 | 20.5 | 45.8 | 61.1 | — | |
Conditional-DET | ResNet-50 | 43.0 | 64.0 | 45.7 | 22.7 | 46.7 | 61.5 | — | |
Anchor-DET | ResNet-50 | 42.1 | 63.1 | 44.9 | 22.3 | 46.2 | 60.0 | — | |
DN-DETR-R5 | ResNet-50 | 44.1 | 64.4 | 46.7 | 22.9 | 48.0 | 63.4 | — | |
YOLOv7-tiny-SiL | ELAN | 38.7 | 56.7 | 41.7 | 18.8 | 42.4 | 51.9 | — | |
MDS-YOLO(本文) | MobileNetV3-Large | 44.5 | 65.2 | 47.7 | 27.6 | 46.5 | 53.6 | 36 |
对比本文优化后的MDS-YOLO和原YOLOv4的实验结果可知,MDS-YOLO算法在MS COCO数据集上的平均检测精度APCOCO从YOLOv4的43%上升至44.5%,提升了1.5个百分点;而对于小目标的平均检测精度APS从YOLOv4的24.3%上升至27.6%,提升了3.3个百分点.同时,MDS-YOLO算法在MS COCO数据集上的检测速度也从31帧/s提升至36帧/s,提升了约16%.但是对于大目标的平均检测精度APL比YOLOv4下降了1.6个百分点,原因可能是图像分割操作导致特征图感受野减小,从而影响了对于大目标特征的识别和检测.但是总体来说,本文改进的MDS-YOLO算法在MS COCO数据集上无论是对于小目标的检测精度还是检测速度都有一定的提升.
另外,为了进一步说明本模型的有效性,本文绘制了不同模型的P-R曲线,从

图2 训练迭代P-R曲线对比图
Fig.2 Comparison chart of P-R curves for training iterations
2.2.3 在Visdrone2019数据集上的检测结果
为了进一步验证MDS-YOLO算法对于小目标的检测性能,本文将改进后的MDS-YOLO算法和原YOLOv4算法在含有大量小目标的Visdrone2019无人机拍摄图像数据集的训练集上进行训练并在其测试集上进行检测,对比其检测速度和检测精度(见
算法 | 主干网络 | 输入尺寸/(像素×像素) | APCOCO/% | AP50/% | AP75/% | FPS/(帧· |
---|---|---|---|---|---|---|
Faster R-CN | ResNet-50 | 12.7 | 22.8 | 11.9 | 7 | |
SS | ResNet-101 | 14.3 | 25.7 | 12.1 | — | |
RetinaNe | ResNet-101-FPN | 15.1 | 24.5 | 12.4 | — | |
YOLOv | DarkNet-53 | 14.7 | 26.3 | 12.2 | 14 | |
FCO | ResNet-101-FPN | 15.6 | 28.7 | 14.8 | ||
YOLOv | CSPDarknet-53 | 14.9 | 27.4 | 14.1 | 31 | |
MDS-YOLO | MobileNetV3-Large | 16.3 | 30.1 | 14.9 | 27 |
YOLOv4和MDS-YOLO的输入尺寸均为,因为Visdrone2019数据集的图像分辨率普遍较高,所以MDS-YOLO的横向分割超参数和纵向分割超参数均设置为2.同样地,本次实验也选择了一些具有代表性的目标检测算法加入对比,如Faster R-CN
对比本文优化后的MDS-YOLO和原YOLOv4的实验结果可知,MDS-YOLO算法在Visdrone2019数据集上的检测速度稍有下降,FPS从31 帧/s降到了27 帧/s,原因可能是图像尺寸较大导致分割数增大,从而影响了检测速度.平均检测精度APCOCO从YOLOv4的14.9%上升至16.3%,提升了1.4个百分点;IoU阈值为0.5时的检测精度AP50从YOLOv4的27.4%上升至30.1%,提升了2.7个百分点.总体来说,在牺牲较少速度的情况下,检测精度得到了较大提升.
2.2.4 实际检测效果对比




(a) YOLOv4检测效果
(b) MDS-YOLO检测效果
图3 YOLOv4与MDS-YOLO实际检测效果对比
Fig.3 Comparison of actual detection performance between YOLOv4 and MDS-YOLO
3 结 论
为提升小目标检测性能的有效性,本文从输入图像、网络结构、损失函数三方面改进YOLOv4算法,提出了MDS-YOLO模型.通过实验验证,在 MS COCO数据集上MDS-YOLO模型对于小目标的平均检测精度APS从YOLOv4的24.3%上升至27.6%,提升了3.3个百分点,且检测速度也提升了约16%;在Visdrone2019无人机数据集上,与YOLOv4相比,MDS-YOLO模型以牺牲较少的检测速度为代价,使检测精度提升了1.4个百分点.由此可见,本文模型的小目标检测效果更好、更高效.
参考文献
LIU L,OUYANG W L,WANG X G,et al.Deep learning for generic object detection:a survey[J].International Journal of Computer Vision,2020,128(2):261-318. [百度学术]
张伟, 庄幸涛, 王雪力,等.DS-YOLO: 一种部署在无人机终端上的小目标实时检测算法[J].南京邮电大学学报(自然科学版), 2021, 41(1): 86-98. [百度学术]
ZHANG W,ZHUANG X T,WANG X L,et al.DS-YOLO:a real-time small object detection algorithm on UAVs[J].Journal of Nanjing University of Posts and Telecommunications (Natural Science Edition),2021,41(1):86-98.(in Chinese) [百度学术]
姚桐,于雪媛,王越,等.改进SSD无人机航拍小目标识别[J].舰船电子工程,2020,40(9):162-166. [百度学术]
YAO T,YU X Y,WANG Y,et al.Improvement of small target recognition algorithm of aerial photography images based on SSD[J].Ship Electronic Engineering,2020,40(9):162-166.(in Chinese) [百度学术]
SINGH B,DAVIS L S.An analysis of scale invariance in object detection - SNIP[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA.IEEE,2018:3578-3587. [百度学术]
LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice,Italy.IEEE,2017:2999-3007. [百度学术]
DUAN K W,BAI S,XIE L X,et al.CenterNet:keypoint triplets for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul,Korea (South). IEEE,2019:6568-6577. [百度学术]
TIAN Z,SHEN C H,CHEN H,et al.FCOS:fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul,Korea (South).IEEE,2019:9626-9635. [百度学术]
TAN M X,PANG R M,LE Q V.EfficientDet:scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle,WA,USA.IEEE,2020:10778-10787. [百度学术]
梁小林, 王欣怡, 黄雅娟, 等. 融合注意力模块的双结构金字塔场景解析网络[J]. 长沙理工大学学报(自然科学版), 2024,21(5): 104-112. [百度学术]
LIANG X L, WANG X Y, HUANG Y J, et al. Two-structure pyramid scene parsing network with attention module[J]. Journal of Changsha University of Science & Technology (Natural Science), 2024, 21(5): 104-112.(in Chinese) [百度学术]
BOCHKOVSKIY A,WANG C Y,LIAO H Y M.YOLOv4:optimal speed and accuracy of object detection[EB/OL].2020:2004.10934. https://arxiv.org/abs/2004.10934v1. [百度学术]
HOWARD A,SANDLER M,CHEN B,et al.Searching for MobileNetV3[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul,Korea (South).IEEE,2019:1314-1324. [百度学术]
KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2012,60:84-90. [百度学术]
GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile. IEEE,2015: 1440-1448. [百度学术]
CHOLLET F.Xception:deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu,HI,USA.IEEE,2017:1800-1807. [百度学术]
SANDLER M,HOWARD A,ZHU M L,et al.MobileNetV2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA.IEEE,2018:4510-4520. [百度学术]
LIN T Y,DOLLÁR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI,USA.IEEE,2017:936-944. [百度学术]
ZHENG Z H,WANG P,LIU W,et al.Distance-IoU loss:faster and better learning for bounding box regression[EB/OL].2019:1911.08287.https://arxiv.org/abs/1911.08287v1. [百度学术]
ZHANG Y F,REN W Q,ZHANG Z,et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing,2022, 506: 146-157. [百度学术]
CHEN C Y,LIU M Y,TUZEL O,et al. R-CNN for small object detection[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2017:214-230. [百度学术]
REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149. [百度学术]
HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas,NV,USA.IEEE,2016:770-778. [百度学术]
HE K M,GKIOXARI G,DOLLÁR P,et al.Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice,Italy.IEEE,2017:2980-2988. [百度学术]
LIU S,QI L,QIN H F,et al.Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA.IEEE,2018:8759-8768. [百度学术]
LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shot MultiBox detector[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2016:21-37. [百度学术]
FARHADI A, REDMON J. YOLOv3: an incremental improvement[EB/OL]. 2018: 1804.02767. https://arxiv. org/abs/1804. 02767. [百度学术]
CARION N,MASSA F,SYNNAEVE G,et al.End-to-end object detection with transformers[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2020:213-229. [百度学术]
WANG Y M,ZHANG X Y,YANG T,et al.Anchor DETR: query design for transformer-based detector[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(3): 2567-2575. [百度学术]
MENG D P,CHEN X K,FAN Z J,et al.Conditional DETR for fast training convergence[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal,QC,Canada.IEEE,2021:3631-3640. [百度学术]
LI F,ZHANG H,LIU S L,et al.DN-DETR:accelerate DETR training by introducing query DeNoising[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence.IEEE,2024:2239-2251. [百度学术]
WANG C Y,BOCHKOVSKIY A,LIAO H Y M.YOLOv7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver,BC,Canada.IEEE,2023:7464-7475. [百度学术]