摘要
边缘检测是计算机视觉任务的基础.目前的技术主要依赖于深度学习,但是大多数的模型在评价阶段会借助非极大值抑制来提高预测边缘的准确率.该策略仅着重关注预测边缘的准确性,没有同时考虑边缘的粗细程度.针对这一问题,本文基于复杂稠密网络,提出了一种新的特征融合策略.该策略在传统深度学习边缘检测器侧输出的基础上,添加了自顶向下的并置多尺度融合架构.此架构可以更好地将高层的高语义特征与低层的高分辨率纹理特征结合,有效地抑制了边缘预测中存在的背景模糊和伪线条的现象.在特征连接处使用Concat block块代替单一的Concat操作,更好地融合了不同尺度的语义信息.最后使用一个简单的注意力融合块融合多个网络输出,并结合跟踪损失对输出的不同尺度的预测图进行深度监督.此方法不依赖于非极大值抑制,并且充分利用了目标的多尺度、多层次信息,在精细边缘图像的同时也提升了预测的准确性.实验结果显示,在未使用和使用形态学非极大值抑制方案的情况下,所提出的模型在BIPED数据集上的ODS、OIS、AP分别达到了0.891、0.895、0.900和0.894、0.899、0.931,优于所有比较算法.在MDBD的数据集上也取得了最优的结果.
边缘检测是一种从图像中提取显著性边缘和边界的技术.几十年以来一直都是计算机视觉面临的主要挑战之一.边缘检测技术一直被认为是一种低级的下游任务,各种高级任务比如形状匹
在早期,边缘检测方法主要集中在使用颜色、纹理、梯度等局部底层特征信息.这些方法可以获得细致、边界清晰的边缘图,Huntsberger
随后的研究者们利用低级信息,如强度、梯度和纹理,手动设计特征,并采用复杂的学习范式来区分边缘和非边缘像
随着神经网络在计算机视觉中的广泛应用,边缘检测也进入了神经网络时代.其中,图像变换的神经网络最近邻场(
近年来,随着卷积神经网络的发展,特别是在FC
虽然从传统方法到基于卷积神经网络的方法,检测效果有了很大的提高,但仍存在一些有待改进的问题.例如大多数的模型,为了获得清晰的边缘图,得到更高的分数,在测试前对网络输出都应用了形态学非极大值抑制.该方案抑制了粗边缘周围的像素模糊,让评价结果看似很高,然而抑制后的边缘图并不美观,实际使用的却是网络原始输出的相对较粗并且有较多像素模糊的预测图.一个良好的边缘检测器必须在边缘的正确性(区分边缘和非边缘像素)和边缘的“脆度”(精确定位边缘像素)之间取得平衡.
为了改善这一问题,本文在DexiNed和CATS的启发下,提出了一种新的并置多尺度融合架构.我们首先保留了DexiNed的复杂稠密网络结构,然后在其原有的侧输出的基础上添加了空洞卷
1)本文提出了一种新的边缘检测方法,该方法可以在提升边缘预测准确性的同时精细边缘图像.
2)本文提出了一种自顶向下的并置多尺度融合策略,该策略更好地融合了不同尺度的语义信息,减少边缘预测中的背景和线条周围的像素模糊.
3)本文提出的边缘检测方法不依赖于NMS,生成的边缘预测图背景清晰、线条精细.
4)实验结果表明,在BIPED数据集上,相比于其他使用NMS的研究方法,本文方法在未使用NMS的情况下取得了更好的结果,在使用NMS的条件下,依旧优于其他对比算法.
1 本文模型
我们的模型不依赖于预训练权重,并且允许端到端进行训练直接生成边缘图像.如

图1 整体模型和各个主要块的结构
Fig.1 Overall model and structure of each major block
1.1 主干网络
主干网络是一个类似于Xception的架构,如
1.2 侧结构
1.2.1 膨胀卷积与空间注意力
如
1.2.2 并置多尺度融合
为了获取更加丰富的多尺度信息,我们在原有的6个输出的基础上添加了自顶向下的路径,把高层的特征传下来,补充低层的语义信息,让输出可以获得高分辨率、强语义的特征,这一方法能够有效减少由低层纹理信息引起的最终边缘预测中出现背景模糊和伪线条的问题,整体传播路径如
1.3 损失函数
本文的损失函数主要来源于CAT
1.3.1 加权交叉熵
加权交叉熵函数为大多数边缘检测所使用的损失函数.给定边缘预测为=,对应的真值标签Y=,加权交叉熵函数如
(1) |
式中: = {i|}、={i|}分别表示边缘和非边缘样本集,α表示边缘和非边缘的整体样本集中负样本的比例.由于边缘真值中正负样本数量差距很大,所以引入λ用于平衡正负样本比例.是一个像素阈值,用来删除有争议的边缘像素.
加权交叉熵虽然可以有效地监督网络学习合理的边缘图,但其对于边缘样本和非边缘样本的注意力高度不平衡,导致了网络难以区分那些边缘具有相同特征的像素.所以,输出的边缘预测图像常常会出现预测错误的混淆像素,在真正的边缘线条周围出现模糊像素,从而产生粗边,在纹理区域得到假阳性预测,形成暗影.
1.3.2 边缘追踪
由于混淆像素通过共享特征与边缘交织在了一起堆积在边缘周围,使得边缘看起来是一道粗边,因此需要边缘追踪抑制来从混淆像素中分离出清晰的边缘.边缘追踪函数如
(2) |
式中: E是边缘标签y中所有边点的集合,表示中心点在一个边缘点p上的一个7×7图像补丁,表示中所有边点的集合.为了使的值越小,要增大,要趋向于0.利用边缘感知函数可以抑制边缘周围的混淆像素并且有效地对网络进行监督.
1.3.3 纹理抑制
边缘追踪函数处理完边缘周围的混淆像素后,剩余的纹理区域的模糊可以通过定义纹理区域抑制函数进行抑制,如
(3) |
式中:表示中心点p不是边缘点的一个3×3图像补丁,表示边缘最终函数中用到的所有边缘和混淆像素的集合.要使得减小,就要趋向于0.纹理抑制函数实际上与边界跟踪函数是互补的,它很好地抑制了除边界以外的纹理区域的像素模糊.
1.3.4 整体损失函数
利用边缘追踪和纹理抑制,最终损失函数表示为:
(4) |
式中:和分别表示边缘预测和边缘的真值标签,和为超参数用于平衡边缘追踪损失和纹理抑制损失.在模型训练中,用来对边缘进行粗学习,通过边缘定位对边缘进行细化,对其余纹理区域进行抑制.该损失函数相比单用加权交叉熵可以实现生成更加清晰细致的边缘预测图像.
2 实验与结果
本部分主要介绍实验与结果.在本文中采用了三个数据集对我们的模型进行定量评估,分别为BIPED、MDBD、BRIND.
2.1 数据集
BIPED:该数据集是提出DexiNed模型的文章中给出的专门用于边缘检测的数据集.BIPED包含250张1 280像素×720像素的巴塞罗那户外图像,其中200张用于训练,50张用于测试.该数据集的边缘图仅有一个经过验证的注释.虽然之前有很多数据集例如BSDS500、NYDU、MDBD等,这些数据集不仅用于边缘检测任务,还用于边界检测轮廓检测等任务.BIPED数据集的提出,不仅弥补了边缘检测数据集的空白,还可以作为用于评估边缘检测算法的基准.因此本文主要采用此数据集对模型进行评估.此外,作者还提供了相应的图像增强功能,包括图像分割、旋转、剪切、反转以及相应的伽马校正等.BIPED有两个版本,本文采用的是拥有更多注释的BIPEDv2.
MDBD:该数据集有100张1 280像素×720像素高清图像.其中80张用于训练,20张用于评估模型.MDBD数据集每张图片都有多个标注,不仅有边界注释,还有边缘注释(5次边界注释,6次边缘注释),但尚未进行验证,因此有些边缘对应的不是正确的注释.在BIPED数据集提出之前,MDBD被普遍认为是与边缘检测最相关的数据集.为了公平起见,MDBD也使用了与BIPED数据集相同的数据增强.
BRIND:该数据集对BSDS500数据集中边缘部分重新标注,并将所有类型的边缘的注释混合在一起,并且进行了评估验证,最后仅保留了一个注释.在BRIND数据集中,300张用于训练,其余的200张用于测试.BRIND同样也使用了与BIPED数据集相同的数据增强.
2.2 训练细节
大多数的模型都依赖于ImageNet数据集的预训练权重,而本文提出的网络不依赖预训练权重,从头开始训练.训练使用Adam优化器,初始学习率设置为1e-4,权重衰退设置为1e-8,批量大小设置为24.对于BIPED、MDBD、BRIND这三个数据集,网络输入的彩色图像大小分别为352像素×352像素、480像素×480像素、320像素×320像素,网络收敛的轮数分别为9、4、10.BIPED和BRIND数据集的真值在所有大于0.2的值加0.6后被剪入0和1.MDBD数据集的真值在所有大于0.3的值加0.7然后被剪入0和1.训练时CATS损失函数的各参数如
数据集 | / | ||
---|---|---|---|
- | - | Final | |
BIPED | 2/0.05 | 1/0.1 | 4/0.01 |
MDBD | 4/0.01 | 2/0.01 | 6/0.01 |
BRIND | 2/0.05 | 2/0.1 | 6/0.05 |
2.3 评价指标
评估边缘检测的核心步骤是在指定最大允许距离的公差的基础上,将输出的边缘预测与地面真值进行像素匹配.由于边缘检测得到的边缘预测图像并不是二值矩阵,是经过Sigmoid后取值为0-1的矩阵.为了评估结果,需要将矩阵二值化,故需要设置阈值η.用于评估的指标有3个,分别为ODS(数据集最优阈值)、OIS(单场图片最优阈值)、AP(平均精度).
在对给定的边缘预测进行二值化之前,大部分边缘检测器为了获得细化的原边预测图,都会使用非极大值抑制(NMS)操作和数学形态学操作的后处理方案.虽然后处理去除了部分像素周围的混沌像素,但边缘检测器的原始输出是否具有良好的性能是一个更加值得探索的问题,因此我们去掉了后处理方案,直接在网络的原始输出与真值之间进行评估.
2.4 实验结果对比
首先将我们提出的方法与几种先进的方法在BIPED数据集上进行了比较.















(a) 原图

(b) GT

(c) BDCN

(d) CATS

(e) DexiNed

(f) PiDiNet

(g) 本文算法
图2 BIPED数据集上,各算法与本文算法进行定性比较
Fig. 2 Qualitative comparison of other algorithms with our algorithm on BIPED data set
方法 | ODS ↑ | OIS ↑ | AP ↑ |
---|---|---|---|
RC | 0.850 | 0.860 | 0.730 |
BDC | 0.878 | 0.886 | 0.827 |
CAT | 0.883 | 0.889 | 0.898 |
DexiNe | 0.872 | 0.877 | 0.798 |
PiDiNe | 0.854 | 0.860 | 0.786 |
本文算法 | 0.891 | 0.895 | 0.900 |
对于MDBD数据集,该数据集可以用作边缘检测,也可以用作边界检测.本文提出的方法主要是用作边缘检测,所以采用数据集中边缘注释部分进行实验.
方法 | ODS ↑ | OIS ↑ | AP ↑ |
---|---|---|---|
BDC | 0.821 | 0.823 | 0.720 |
CAT | 0.854 | 0.856 | 0.680 |
DexiNe | 0.802 | 0.807 | 0.798 |
PiDiNe | 0.821 | 0.823 | 0.720 |
本文算法 | 0.864 | 0.871 | 0.876 |















(a) 原图

(b) GT

(c) BDCN

(d) CATS

(e) DexiNed

(f) PiDiNet

(g) 本文算法
图3 MDBD数据集上,各算法与本文算法进行定性比较
Fig. 3 Qualitative comparison of other algorithms with our algorithm on MDBD data set
最后对于BRIND数据集,由于BRIND数据集来源于BSDS500数据集,它并不是一个专门进行边缘检测的数据集,即便进行了部分重新标注,但许多细节部分还是被丢弃了.我们的方法是专门用于边缘检测的,在训练时会尽可能多地捕捉那些边缘纹理细节,因此在用BRIND数据集进行测试时,会出现部分边缘预测和真值标签不符的现象.从
方法 | ODS ↑ | OIS ↑ | AP ↑ |
---|---|---|---|
BDC | 0.778 | 0.790 | 0.411 |
CAT | 0.756 | 0.771 | 0.602 |
DexiNe | 0.747 | 0.759 | 0.663 |
PiDiNe | 0.748 | 0.762 | 0.644 |
本文算法 | 0.762 | 0.774 | 0.698 |















(a) 原图

(b) GT

(c) BDCN

(d) CATS

(e) DexiNed

(f) PiDiNet

(g) 本文算法
图4 BRIND数据集上,各算法与本文算法进行定性比较
Fig.4 Qualitative comparison of other algorithms with our algorithm on BRIND data set
2.5 消融实验
为了探索网络中不同模块在边缘检测结果的有效性和在测试前采用形态学非极大值抑制(NMS)对最终测试结果的影响,我们使用BIPED数据集进行试验.
第一个实验探索不同模块的有效性.我们使用DexiNed算法的实验结果作为我们的基线,然后通过以下模型进行消融实验:1)为了探索CATS损失函数对预测的影响,模型A表示我们的模型使用加权交叉熵损失函数;2)为了探索所提的并置多尺度融合方法对预测的影响,模型B表示原DexiNed使用CATS损失函数但不使用并置多尺度融合方法;3)为了探索CDCM和CSAM对模型的影响,模型C表示不使用CDCM和CSAM的后处理,模型D表示在向上传播后的每个侧输出也都添加CDCM和CSAM.结果如
方法 | ODS ↑ | OIS ↑ | AP ↑ |
---|---|---|---|
DexiNe | 0.872 | 0.877 | 0.798 |
模型A | 0.881 | 0.886 | 0.827 |
模型B | 0.887 | 0.892 | 0.886 |
模型C | 0.890 | 0.895 | 0.887 |
模型D | 0.887 | 0.893 | 0.906 |
所提模型 | 0.891 | 0.895 | 0.900 |
从结果对比可以看到,CATS损失函数可以较大幅度提高ODS和OIS指标的结果.并置多尺度融合方法可以进一步提升性能,在AP指标上有较大提升,说明该方法可以使网络预测的边缘定位更加精准.CDCM和CSAM的添加可以让网络学习到更加丰富的多尺度信息,提升网络的性能.但是在向上传播阶段,添加过多的空洞卷积和空间注意力会适得其反.综上所述,网络中设计的每个模块都在最终的性能中起着至关重要的作用.
第二个实验试探索大多数边缘检测器使用的形态学非极大值抑制的后处理方法对最终性能的影响.我们使用目前在BIPED数据集上的最优模型DexiNed来进行对比.从

图5 是否使用非极大值抑制的定性比较
Fig.5 Qualitative comparison of whether using non-maximum suppression(NMS)
(Ⅰ)DexiNed (Ⅱ)本文算法
从
模型 | UNNMS | NMS | ||||
---|---|---|---|---|---|---|
ODS↑ | OIS↑ | AP↑ | ODS↑ | OIS↑ | AP↑ | |
RC | 0.850 | 0.860 | 0.730 | 0.884 | 0.892 | 0.930 |
BDC | 0.878 | 0.886 | 0.827 | 0.888 | 0.896 | 0.918 |
CAT | 0.883 | 0.889 | 0.898 | 0.884 | 0.891 | 0.927 |
DexiNe | 0.872 | 0.877 | 0.798 | 0.891 | 0.896 | 0.919 |
PiDiNe | 0.854 | 0.860 | 0.786 | 0.885 | 0.891 | 0.918 |
本文算法 | 0.891 | 0.895 | 0.900 | 0.894 | 0.899 | 0.931 |
3 总 结
本文提出的基于复杂稠密网络的并置多尺度融合边缘检测算法,用于解决大多数边缘检测器提取边缘过粗的问题,并且可以实现端到端的边缘提取,最后通过实验在BIPED、MDBD和BRIND数据集上证明了所提算法可以兼顾边缘的准确性和精细程度,输出的边缘更加美观,并且拥有较好的泛化性.算法的不足在于对于某些特定颜色的边缘会异常的敏感,致使网络输出错误的预测.未来的算法会尝试加入结构相似度有关的损失函数或者寻找归一化的方法来提高模型对于不同颜色边缘的识别能力,以达到更好的效果.
参考文献
RADENOVIĆ F, TOLIAS G, CHUM O. Deep shape matching[M]//Computer Vision-ECCV 2018. Cham:Springer International Publishing, 2018: 774-791. [百度学术]
SU Y Q, LIU Y H, CUAN B N, et al. Contour guided hierarchical model for shape matching[C]//2015 IEEE International Conference on Computer Vision (ICCV).Santiago,Chile.IEEE,2015:1609-1617. [百度学术]
CHEN C, LI S, WANG Y G, et al. Video saliency detection via spatial-temporal fusion and low-rank coherency diffusion[J].IEEE Transactions on Image Processing, 2017, 26(7): 3156-3170. [百度学术]
WANG X H,LI S,CHEN C,et al.Data-level recombination and lightweight fusion scheme for RGB-D salient object detection[J].IEEE Transactions on Image Processing,2021,30:458-471. [百度学术]
CHENG M, LIU Y, HOU Q, et al. HFS: hierarchical feature selection for efficient image segmentation[C]//Computer Vision-ECCV 2016. Amsterdam, the Netherlands: Springer, 2016:867-882. [百度学术]
WEI Y C,LIANG X D,CHEN Y P,et al.STC:a simple to complex framework for weakly-supervised semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(11): 2314-2320. [百度学术]
HUNTSBERGER T L,DESCALZI M F.Color edge detection[J].Pattern Recognition Letters,1985,3(3): 205-209. [百度学术]
HUANG J S,TSENG D H.Statistical theory of edge detection[J].Computer Vision,Graphics,and Image Processing,1988, 43(3):337-346. [百度学术]
TORRE V,POGGIO T A.On edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1986,PAMI-8(2):147-163. [百度学术]
ZHANG J Y,CHEN Y,HUANG X X.Edge detection of images based on improved Sobel operator and genetic algorithms[C]//2009 International Conference on Image Analysis and Signal Processing.Linhai,China.IEEE,2009:31-35. [百度学术]
CANNY J.A computational approach to edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1986,PAMI-8(6):679-698. [百度学术]
DOLLAR P,TU Z W,BELONGIE S.Supervised learning of edges and object boundaries[C]//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06).New York,NY,USA.IEEE,2006:1964-1971. [百度学术]
REN X F. Multi-scale improves boundary detection in natural images[C]//ECCV'08: Proceedings of the 10th European Conference on Computer Vision: Part III. Marseille, France: Springer, 2008: 533-545. [百度学术]
DOLLAR P,ZITNICK C L.Fast edge detection using structured forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(8):1558-1570. [百度学术]
ISOLA P,ZORAN D,KRISHNAN D, et al. Crisp boundary detection using pointwise mutual information[C]// Computer Vision-ECCV 2014 . Zurich, Switzerland: Springer, 2014:799-814. [百度学术]
SHI J B,MALIK J.Normalized cuts and image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000, 22(8): 888-905. [百度学术]
GANIN Y,LEMPITSKY V.
BERTASIUS G,SHI J B,TORRESANI L.DeepEdge:a multi-scale bifurcated deep network for top-down contour detection[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston,MA,USA.IEEE,2015:4380-4389. [百度学术]
LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston,MA,USA.IEEE,2015:3431-3440. [百度学术]
KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90. [百度学术]
SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].http://arxiv.org/abs/1409.1556. [百度学术]
HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA.IEEE,2016:770-778. [百度学术]
CHOLLET F.Xception:deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE, 2017:1800-1807. [百度学术]
HUANG G,LIU Z,VAN DER MAATEN L,et al.Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE,2017:2261-2269. [百度学术]
XIE S N,TU Z W.Holistically-nested edge detection[J].International Journal of Computer Vision,2017,125(1):3-18. [百度学术]
LIU Y,CHENG M M,HU X W,et al.Richer convolutional features for edge detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE,2017:5872-5881. [百度学术]
LIU Y,CHENG M M,HU X W,et al.Richer convolutional features for edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(8):1939-1946. [百度学术]
SORIA X,RIBA E,SAPPA A.Dense extreme inception network:towards a robust CNN model for edge detection[C]//2020 IEEE Winter Conference on Applications of Computer Vision (WACV).Snowmass,CO,USA.IEEE,2020:1912-1921. [百度学术]
MÉLY D A,KIM J,MCGILL M,et al.A systematic comparison between visual cues for boundary detection[J].Vision Research,2016,120:93-107. [百度学术]
WANG Y P,ZHAO X,HUANG K Q.Deep crisp boundaries[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE,2017:1724-1732. [百度学术]
HE J Z,ZHANG S L,YANG M,et al.BDCN:Bi-directional cascade network for perceptual edge detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(1):100-113. [百度学术]
HUAN L X,XUE N,ZHENG X W,et al.Unmixing convolutional features for crisp edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(10):6602-6609. [百度学术]
SU Z,LIU W Z,YU Z T,et al.Pixel difference networks for efficient edge detection[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).Montreal,QC,Canada.IEEE,2021:5097-5107. [百度学术]
YU F,KOLTUN V.Multi-scale context aggregation by dilated convolutions[EB/OL].http://arxiv.org/abs/1511.07122. [百度学术]
CHEN L C,ZHU Y K,PAPANDREOU G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//European Conference on Computer Vision.Cham:Springer,2018:833-851. [百度学术]