摘要
针对目前热轧带钢表面缺陷检测精度低和效率低的问题,提出了一种基于改进YOLOv8s的目标检测算法.首先,提出了一种基于特征图二次拼接并融入GAM的SPPD模块,提升了模型多尺度信息融合能力.其次,提出了一种融合可变形卷积的特征提取模块DCN-block,以增大模型的感受野,提取完整的缺陷信息.最后,将特征融合网络中的C2f模块替换为BoT(bottleneck transformer)结构,将Transformer中的多头自注意力机制与卷积融合,提升模型的全局位置信息感知能力.实验结果表明,本文提出的算法在NEU-DET数据集上的平均精度均值(mAP)达到了80.5%,较原有的YOLOv8算法提升了5个百分点,同时检测速度达到了83帧/s, 满足实时检测的需求.
钢铁作为我国的基础产业,极大地促进了经济和国防的发
热轧带钢的表面缺陷检测技术从20世纪70年代初期开始发展,之前主要依赖人工目测发现缺陷,效率低且检测结果受主观因素的影响.后续出现的涡流检测、漏磁检测和红外检
2012年之后,随着计算机硬件的发展, 深度学习在图像处理领域迅速崛
综上所述,目前相关缺陷检测算法难以同时满足实际生产环境对检测速度和精度的要求.针对上述问题,本文基于现阶段较先进的YOLOv8缺陷检测网络进行了改进.其主要贡献如下:
1) 提出了一种空间金字塔池化特征图二次拼接(spatial pyramid pooling-double, SPPD)模块,该模块在SPPF的基础上添加卷积分支和GAM,以丰富模型梯度流并增强模型的特征提取能力.
2) 提出了一种融合可变形卷积的特征提取模块DCN-block,将可变形卷积融入Bottleneck,使其在采样时可以自适应物体的形状和尺寸,丰富了模型的感受野,能提取更完整的缺陷信息,训练出来的模型更具有鲁棒性.
3) 引入了BoT(bottleneck transformer)模块替代C2f模块.以卷积为特征提取方式的C2f模块具有平移不变性和局部性,为提升模型的全局感知能力,在特征融合网络PAFPN中使用BoT模块可以更好地提取检测目标的位置和特征信息.
1 基于YOLOv8的改进算法
1.1 模型结构
结合实际生产环境对于模型检测速度和精度的要求,本文基于YOLOv8s模型,提出了改进后的算法架构,如

图1 改进后的YOLOv8s网络结构
Fig.1 Improved YOLOv8s network structure
1.2 SPPD
YOLOv8沿用了YOLOv5的快速空间金字塔池化(spatial pyramid pooling-fast, SPPF)模块,SPPF结构如

图2 SPPF模块
Fig.2 SPPF module
热轧带钢数据集有大量的细小缺陷,且存在前景和背景相似的问题,为丰富模型的梯度流,更好地实现对缺陷信息全局和局部特征的融合,本文提出了基于特征图二次拼接并融合GA

图3 SPPD模块
Fig.3 SPPD module
其中,GAM的结构如
(1) |
(2) |
式中:和分别为通道和空间注意图;表示逐元素相乘.

图4 GAM
Fig.4 GAM
其中,通道注意力子模块如

图5 通道注意力子模块
Fig.5 Channel attention submodule
空间注意力子模块如

图6 空间注意力子模块
Fig.6 Spatial attention submodule
1.3 DCN-block
带钢的表面缺陷呈现出不规则的形态,传统的卷积结构是固定的,限制了特征提取过程中感受野的大小,给缺陷检测带来了困难.Dai

图7 标准卷积和可变形卷积采样对比
Fig.7 Comparison of standard convolutional and deformable convolutional sampling
(a)标准卷积 (b)可变形卷积
二维可变形卷积采样过程可简述如下:先用常规卷积核R对于输入特征图x进行采样,再对采样值施加权重w,最后依次相加求和.以3×3大小的卷积核为例,可定义为
在常规卷积的采样过程中,对于输出特征图y上的每个位置,有
(3) |
式中:为R中的采样点.
在可变形卷积中,对常规卷积核施以偏移量,其中.因此,可变形卷积的公式可表达为
(4) |
本文对原有的Bottleneck模块进行改进,提出了一种结合可变形卷积的DCN-block模块,其结构对比如

图8 Bottleneck和DCN-block结构对比
Fig.8 Comparison of Bottleneck and DCN-block structure
1.4 BoT
热轧带钢缺陷的背景复杂,且同类缺陷也存在形状差异,容易导致模型误检和漏检.YOLOv8采用的C2f特征提取模块由卷积构成,对于特征层的感知受限于局部,缺乏全局和远程感知能力,为提升模型的特征提取能力,本文引入Bo
BoT模块由ResNet中的Bottleneck模块改进而来,其结构分别如

图9 BoT和ResNet Bottleneck结构对比
Fig.9 Comparison of BoT and ResNet Bottleneck structure
BoT模块实际使用4个头的多头自注意力机制,多头自注意力机制的输出分别由单头自注意力机制计算的结果矩阵拼接而得,本文将其简化绘制的多头自注意力机制结构如
(5) |

图10 MHSA结构
Fig.10 MHSA structure
式中:,,,.
2 实验结果与分析
2.1 实验数据集及环境设置
本文采用东北大学的NEU-DET热轧带钢缺陷数据集作为实验对象,包括六类典型的热轧带钢表面缺陷,即开裂(crazing, Cr)、夹杂(inclusion, In)、斑块(patches, Pa)、点蚀(pitted surface, PS)、氧化铁皮压入(rolled-in scale, RS)和划痕(scratches, Sc),每类缺陷的图片都有300张,共1 800张,图像的原始分辨率为200像素×200像素,其缺陷样本示例如

(a) 开裂
(b) 夹杂
(c) 斑块

(d) 点蚀
(e) 氧化铁皮压入
(f) 划痕
图11 NEU-DET六类带钢缺陷示例
Fig.11 Examples of six types of strip steel defects in NEU-DET
实验的操作系统环境为Ubuntu 20.04.1,计算机的硬件配置为Inter(R) Corei9-10900x CPU,NVIDIA GeForce GTX3090 GPU,内存为32 GB.所有实验的软件环境基于PyTorch1.10.1,Python版本为3.7,并利用CUDA 11.4和cuDNN8.5实现GPU训练加速.
实验时将NEU-DET数据集的1 800张图片按照8∶2的比例随机划分,得到训练集1 440张,测试集360张.采用SGD优化器,设置初始学习率为0.01,动量系数为0.937,权重衰减为0.000 5,训练时batch size设置为16,共训练150个epoch.
2.2 模型评价指标
本文采用目标检测任务中常用的平均精度均值(mean average precision, mAP)作为模型检测精度的评价指标,可由精确率(P)和召回率(R)计算得到.精确率的定义为模型预测为正样本中实际为正样本的比例,召回率是指模型预测正确的正样本数与总的正样本数之比,计算公式分别如下所示:
(6) |
(7) |
式中:TP(true positive)为将正样本预测为正样本的数量;FP(false positive)为将负样本预测为正样本的数量;FN(true negative)为将正样本预测为负样本的数量.
平均精度(average precision, AP)的定义为不同召回率下精确率的平均值,常用于评价单类别的检测精度.mAP则通过计算所有类别的平均精度均值来评估多目标检测任务模型的整体性能.对n类缺陷检测而言,可通过如下公式计算AP和mAP值:
(8) |
(9) |
模型对图片的处理过程主要包括图像预处理(pretreatment)、模型推理(inference)和非极大值抑制(NMS).为衡量网络模型对图像的处理速度,本文引入FPS(frames per second)指标来评价模型的实时检测能力.FPS的定义为模型每秒钟分析处理的图像帧数,可由如下公式计算而得:
(10) |
2.3 实验结果
为探究模型大小对检测精度的影响,本文基于上述实验环境,对YOLOv8的5个检测模型YOLOv8n~YOLOv8x在NEU-DET热轧带钢表面缺陷数据集上进行了实验,实验结果如
模型 | AP/% | mAP/% | FPS/ (帧· | |||||
---|---|---|---|---|---|---|---|---|
Cr | In | Pa | PS | RS | Sc | |||
YOLOv8n | 40 | 82 | 92 | 76 | 63 | 95 | 74.67 | 116 |
YOLOv8s | 45 | 81 | 91 | 78 | 64 | 94 | 75.50 | 106 |
YOLOv8m | 47 | 83 | 92 | 80 | 64 | 94 | 76.67 | 85 |
YOLOv8l | 50 | 84 | 94 | 73 | 67 | 97 | 77.50 | 70 |
YOLOv8x | 47 | 83 | 90 | 76 | 66 | 96 | 76.33 | 61 |
为证明本文提出的SPPD模块、DCN-block模块和引入BoT模块对模型性能提升的有效性,通过消融实验来直观展现模型精度变化情况,便于后续评估各项改进点对模型检测能力的影响.本实验以YOLOv8s为基准算法,实验结果如
模型 | AP/% | mAP/% | FPS/(帧· | |||||
---|---|---|---|---|---|---|---|---|
Cr | In | Pa | PS | RS | Sc | |||
YOLOv8s YOLOv8s+SPPD YOLOv8s+SPPD+DCN-block YOLOv8s+SPPD+DCN-block+BoT |
45 45 53 58 |
81 82 84 87 |
91 93 93 91 |
78 80 81 81 |
64 64 68 72 |
94 96 93 94 |
75.50 76.67 78.67 80.50 |
106 102 88 83 |
根据
此外,为探究各改进模型对不同大小缺陷的检测效果,分别列出小、中、大目标的检测结果,如
模型 | mAP/% | |||
---|---|---|---|---|
小目标 | 中目标 | 大目标 | 平均 | |
YOLOv8s | 32.30 | 36.90 | 53.60 | 41.7 |
YOLOv8s+SPPD | 33.90 | 37.30 | 53.60 | 42.6 |
YOLOv8s+SPPD+DCN-block | 37.80 | 38.80 | 54.30 | 42.8 |
YOLOv8s+SPPD+DCN-block+BoT | 43.50 | 39.10 | 53.50 | 44.1 |
为体现本文所提出的SPPD模块里融合的GAM对模型精度提升的优越性,以改进后(即引入SPPD、DCN-block和BoT模块)的YOLOv8s网络为基准,并分别将SPPD模块的GAM替换为目前主流的注意力机制S
模型 | AP% | mAP/% | FPS/(帧· | |||||
---|---|---|---|---|---|---|---|---|
Cr | In | Pa | PS | RS | Sc | |||
YOLOv8s+DCN-block+BoT+SPPD(SE) YOLOv8s+DCN-block+BoT+SPPD(CBAM) YOLOv8s+DCN-block+BoT+SPPD(CA) YOLOv8s+DCN-block+BoT+SPPD(GAM) |
56 49 54 58 |
85 84 85 87 |
90 89 91 91 |
82 78 77 81 |
68 74 70 72 |
94 93 92 94 |
79.17 77.83 78.17 80.50 |
86 84 80 83 |
为直观呈现GAM对网络关注区域的影响,本文绘制了特征提取网络的注意力热力图,如

图12 加入SPPD热力图对比结果
Fig.12 Heat map comparison results after adding SPPD
(a)开裂 (b)夹杂 (c)斑块 (d)点蚀 (e)氧化铁皮压入 (f)划痕
2.4 算法对比实验
为进一步验证改进YOLOv8s算法的性能,本文将其与目标检测常用的主流算法,如SSD、RetinaNet、YOLOv5、YOLO

图13 不同模型精度-速度对比图
Fig.13 Comparison chart of precision-speed for different models
模型 | AP/% | mAP/% | FPS/ (帧· | |||||
---|---|---|---|---|---|---|---|---|
Cr | In | Pa | PS | RS | Sc | |||
SSD | 60 | 70 | 89 | 74 | 72 | 77 | 73.67 | 96 |
RetinaNet | 55 | 73 | 94 | 84 | 72 | 69 | 74.50 | 58 |
YOLOv5s | 34 | 83 | 94 | 74 | 73 | 93 | 75.17 | 103 |
YOLOXs | 38 | 84 | 92 | 78 | 75 | 92 | 76.50 | 85 |
YOLOv7tiny | 46 | 83 | 95 | 74 | 66 | 94 | 76.33 | 108 |
YOLOv7l | 47 | 86 | 92 | 80 | 67 | 94 | 77.67 | 75 |
Faster RCNN | 49 | 82 | 93 | 85 | 65 | 93 | 77.83 | 55 |
YOLOv8s | 45 | 81 | 91 | 78 | 64 | 94 | 75.50 | 106 |
改进的YOLOv8s | 58 | 87 | 91 | 81 | 72 | 94 | 80.50 | 83 |
由
对比实验结果可知,不同模型对不同种类缺陷的检测精度各有优劣.其中RetinaNet对斑块(Pa)类大目标缺陷有着较好的检测效果,但对于背景复杂的划痕(Sc)类细小目标缺陷的检测效果最差.原因在于RetinaNet在特征提取的卷积过程中,小目标特征信息逐渐退化消失且易受到背景噪声的干扰.与此类似的是SSD算法没有真正将高维和低维特征图融合,导致没有充分利用低维特征图的小目标缺陷信息,同样导致SSD算法对于划痕(Sc)类缺陷的检出效果不佳.相较于改进前的YOLOv8s算法,改进后算法的mAP有明显提升,特别是对于检出率最低的开裂(Cr)类缺陷及背景复杂的氧化铁皮压入(RS)类缺陷的检测精度有着大幅提升,证明了改进后的网络有着更强的缺陷特征信息的提取和融合能力.
2.5 模型检测效果可视化与分析
为直观呈现基于YOLOv8s改进后算法相较于原算法的优越性,本文将改进前后模型在热轧带钢缺陷数据集上的检测效果可视化,并与原始图片和真实的标注框图进行对比,得到的结果如

图14 改进前后模型检测效果可视化
Fig.14 Visualization of model detection effects before and after improvement
(a)开裂 (b)夹杂 (c)斑块 (d)点蚀 (e)氧化铁皮压入 (f)划痕
模型 | IoU | |||||
---|---|---|---|---|---|---|
Cr | In | Pa | PS | RS | Sc | |
YOLOv8s | 0.72 | 0.82 | 0.85 | 0.86 | 0.74 | 0.83 |
改进YOLOv8s | 0.79 | 0.85 | 0.89 | 0.87 | 0.80 | 0.88 |
从缺陷检出率的角度分析,改进前的YOLOv8s算法在斑块(Pa)和氧化铁皮压入(RS)两类缺陷中均存在漏检的情况,而改进后的算法则将所有缺陷都检测了出来.从分类置信度的角度分析,改进后的YOLOv8s算法较改进前而言,对各缺陷的分类置信度都有提高.从缺陷定位的准确性分析,由
2.6 缺陷数据集分割实验
YOLOv8作为视觉多任务集成框架,可对图像进行检测、分割、分类和姿态估计.在实现热轧带钢的缺陷检测后,利用YOLOv8s-seg算法实现对NEU-DET热轧带钢数据集的缺陷分割任务.YOLOv8s-seg是YOLOv8的实例分割模型,网络设计基于YOLACT实现,主要由掩码预测分支和目标检测分支并行组成.掩码预测分支使用全卷积网络结构生成实例的原型掩码,目标检测分支可实现对目标的位置、类别和掩码系数的预测,通过快速非极大值抑制后,将 2个并行分支计算得到的原型掩码和掩码系数进行线性组合得到最终的分割结果.
东北大学的NEU-DET热轧带钢缺陷数据集缺乏分割标签,考虑到开裂(Cr)、点蚀(PS)和氧化铁皮压入(RS)类缺陷难以实现准确地分割标注,借助开源标注工具LabelMe对夹杂(In)、斑块(Pa)和划痕(Sc)三类缺陷进行标注,共得到900张图片,按照8∶2的比例随机划分,其中训练集720张,测试集180张.
本文以分割任务的平均精度(AP)、平均精度均值(mAP)和平均交并比(mIoU)作为实例分割掩模的评价指标,基于前文实验环境进行训练,得到的实验结果如
模型 | AP/% | mAP/% | mIoU | ||
---|---|---|---|---|---|
In | Pa | Sc | |||
YOLOv8s | 63.60 | 74.70 | 76.20 | 71.50 | 0.58 |

图15 缺陷分割结果
Fig.15 Segmentation results of defects
(a)开裂 (b)夹杂 (c)斑块
3 结 论
本文针对热轧带钢表面缺陷检测任务,为进一步提升缺陷的检测精度和速度,提出了一种基于YOLOv8s的改进算法.首先,提出了基于特征图二次拼接并融入GAM的SPPD模块,在丰富模型梯度流的同时可以使得模型更关注缺陷位置.其次,针对热轧带钢表面缺陷形态不规则和常规卷积存在感受野受限的问题,对原有的Bottleneck模块进行改进,提出了一种结合可变形卷积的特征提取模块DCN-block,从而使检测网络可以动态学习到完整的缺陷信息.最后,热轧带钢数据集背景复杂且差异较大,全卷积的C2f特征提取模块缺乏全局和远程感知能力,本文通过在模型颈部引入BoT模块来捕获更丰富的全局特征,提升了模型区分缺陷和背景信息的能力.实验结果显示,本文所提出的YOLOv8s改进模型在NEU-DET测试集上的mAP达到了80.5%,较原模型提升了5个百分点,且检测速度达到了83帧/s.综上所述,本文所提出的改进算法较好地平衡了检测精度和速度,更符合热轧带钢生产企业的实际需求.
参考文献
李毅仁,邢奕,孙宇佳,等.钢铁工业低碳绿色发展路径与实 践[J].工程科学学报,2023,45(9):1583-1591. [百度学术]
LI Y R,XING Y,SUN Y J,et al.Low-carbon green development path and practice of the iron and steel industry[J].Chinese Journal of Engineering,2023,45(9):1583-1591.(in Chinese) [百度学术]
周李洪,龚金科, 李兵.基于稀疏表示的车用带钢表面图像信息修复[J].湖南大学学报(自然科学版),2021,48(8):141-148. [百度学术]
ZHOU L H,GONG J K,LI B.Image information restoration of automotive strip steel surface based on sparse representation[J].Journal of Hunan University (Natural Sciences),2021,48(8):141-148.(in Chinese) [百度学术]
李桂元.无损检测技术在钢棒探伤方面的应用[J].冶金与材料, 2022, 42(1):89-90. [百度学术]
慕君林, 马博, 王云飞, 等. 基于深度学习的农作物病虫害检测算法综述[J]. 农业机械学报, 2023, 54(增刊2): 301-313. [百度学术]
MU J L, MA B, WANG Y F, et al. Review of crop disease and pest detection algorithms based on deep learning[J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(Sup.2): 301- 313. (in Chinese) [百度学术]
赵立新, 邢润哲, 白银光, 等.深度学习在目标检测的研究综述[J].科学技术与工程,2021,21(30):12787-12795. [百度学术]
ZHAO L X, XING R Z, BAI Y G, et al.Review on survey of deep learning in target detection[J]. Science Technology and Engineering,2021,21(30):12787-12795.(in Chinese) [百度学术]
张睿,高美蓉,傅留虎,等.基于多域多尺度深度特征自适应融合的焊缝缺陷检测研究[J].振动与冲击,2023,42(17):294-305. [百度学术]
ZHANG R,GAO M R,FU L H,et al.Weld defect detection based on adaptive fusion of multi-domain and multi-scale deep features[J].Journal of Vibration and Shock,2023,42(17):294-305.(in Chinese) [百度学术]
付苗苗,邓淼磊,张德贤.深度神经网络图像目标检测算法综述[J].计算机系统应用,2022,31(7):35-45. [百度学术]
FU M M,DENG M L,ZHANG D X.Survey on deep neural network image target detection algorithms[J].Computer Systems and Applications,2022,31(7):35-45.(in Chinese) [百度学术]
REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas,NV,USA.IEEE,2016:779-788. [百度学术]
LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shot MultiBox detector[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2016:21-37. [百度学术]
LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice,Italy.IEEE,2017:2999-3007. [百度学术]
GIRSHICK R, DONAHUE J, DARRELL T, et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus,OH,USA.IEEE,2014:580-587. [百度学术]
邹旺,吉畅.一种改进YOLOv4-tiny的带钢表面缺陷实时检测方法[J].机械科学与技术,2023,42(6):883-889. [百度学术]
ZOU W,JI C.Real-time detection method of surface defects of hot-rolled strip via improved YOLOv4-tiny model[J].Mechanical Science and Technology for Aerospace Engineering,2023, 42(6): 883-889.(in Chinese) [百度学术]
BOCHKOVSKIY A,WANG C Y,LIAO H Y M.YOLOv4:optimal speed and accuracy of object detection[EB/OL].2020:2004.10934. https://arxiv.org/abs/2004.10934v1. [百度学术]
ZHOU X W,WEI M G,LI Q L,et al.Surface defect detection of steel strip with double pyramid network[J].Applied Sciences,2023,13(2):1054. [百度学术]
YU J B,CHENG X,LI Q F. Surface defect detection of steel strips based on anchor-free network with channel attention and bidirectional feature fusion[J].IEEE Transactions on Instrumentation and Measurement, 2021,71: 5000710. [百度学术]
JOCHER G, NISHIMURA K, MINEEVA T, et al. YOLOv5 [EB/OL]. (2020-06-26)[2023-06-02]. https://github.com/ul- tralytics/yolov5. [百度学术]
LIU Y C,SHAO Z R,HOFFMANN N.Global attention mechanism:retain information to enhance channel-spatial interactions[EB/OL]. 2021: 2112.05561. https://arxiv.org/abs/2112.05561v1. [百度学术]
DAI J F,QI H Z,XIONG Y W,et al.Deformable convolutional networks[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice,Italy.IEEE,2017:764-773. [百度学术]
SRINIVAS A,LIN T Y,PARMAR N,et al.Bottleneck transformers for visual recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville,TN,USA.IEEE,2021:16514-16524. [百度学术]
石争浩,李成建,周亮,等.Transformer驱动的图像分类研究进展[J].中国图象图形学报, 2023, 28(9): 2661-2692. [百度学术]
SHI Z H,LI C J,ZHOU L,et al.Survey on Transformer for image classification[J].Journal of Image and Graphics,2023,28(9):2661-2692.(in Chinese) [百度学术]
HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8): 2011-2023. [百度学术]
WOO S,PARK J,LEE J Y,et al.CBAM:convolutional block attention module[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing, 2018: 3-19. [百度学术]
HOU Q B,ZHOU D Q,FENG J S.Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville,TN,USA.IEEE, 2021: 13708-13717. [百度学术]
GE Z, LIU S T, WANG F, et al. YOLOX: exceeding YOLO series in 2021[EB/OL]. (2021-07-18)[2023-6-10]. https://arxiv.org/abs/2107. 08430. [百度学术]
WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Vancouver,BC,Canada. IEEE, 2023: 7464-7475. [百度学术]