摘要
为解决现有目标跟踪算法深层次特征提取困难、不能充分利用跨模态信息以及目标特征表示较弱等问题,提出了基于孪生网络的特征融合位移RGB-T目标跟踪算法.首先,基于可见光模态SiameseRPN++的目标跟踪框架,扩展设计红外模态分支,以获得多模态目标跟踪框架,设计了改进步长的ResNet50作为特征提取网络,有效挖掘目标的深层次特征.随后,设计特征交互学习模块,利用一种模态的判别信息引导另一种模态的目标外观特征学习,挖掘特征空间和通道中的跨模态信息,增强网络对前景信息的关注.然后,设计多模特征融合模块计算输入的可见光图像和红外图像的特征融合度,对不同模态的重要特征进行空间融合以去除冗余信息,并采用级联融合策略重建多模态图像,增强目标特征表示.最后,设计特征空间位移模块,分割红外模态分支的特征图并向四个不同方向移位,增强热源目标特征的边缘表示.在两个RGB-T数据集上的实验验证了提出算法的有效性,消融实验证明了设计的单个模块的优越性.
目标跟踪旨在确定视频序列第一帧中目标的位置,在后续帧中准确定位该位置.近年来,基于深度学习的目标跟踪技术取得了一些进展,如ATO
为了提取目标的深层次特征,文献[
综上所述,目前大多数基于孪生网络的RGB-T跟踪算法都面临以下问题:1)如何集成深度网络提取深层目标特征?2)如何挖掘红外及可见光的跨模态特征?3)如何增强红外模态分支特征,消除不同模态之间的冗余信息,增强目标特征表示?为了解决这些问题,本文提出了基于孪生网络的特征融合位移RGB-T目标跟踪算法.针对第一个问题:本文采用了ResNet5
1 基于孪生网络的特征融合位移RGB-T目标跟踪法
1.1 基线跟踪算法
孪生跟踪网络采用视频序列的第一帧作为模板帧,后续帧作为检测帧,并在整个跟踪过程中,模板帧保持不变.本文提出的跟踪算法由两个SiamRPN+
(1) |
(2) |

图1 特征融合位移孪生网络
Fig.1 Feature fusion shift siamese network model
式中:表示模板图像;表示检测图像;和分别表示模板分支特征和检测分支特征;表示颈部模块输出特征;和分别表示第i个RPN模块的分类结果和回归结果;和分别为第i层的分类线性权重和回归线性权重.
为了适应扩展出的红外模态分支,本文提出了新的区域选择网络,设计了一个新的分类分支和回归分支,前者用于分类目标和背景,后者用于预测锚框位置.计算过程如下:
(3) |
(4) |
(5) |
(6) |
式中:和分别表示可见光模板图像块和可见光检测图像块;和分别表示红外模板图像块和红外检测图像块;和分别表示第i个X_n模块输出的分类值和回归值;和分别表示第i层的可见光分类线性权值和可见光回归线性权值;和分别表示第i层的红外分类线性权值和红外回归线性权值.
1.2 多模特征融合模块
在特定场景下,如低分辨率和热交叉时,红外模态会存在大量噪声,可见光和红外模态之间存在大量非互补冗余信息,会减弱目标特征表示能力.为了最大限度地消除冗余信息,去除红外模态中的噪声干扰,增强目标的特征表示,设计了多模特征融合模块,该模块通过去噪和特征融合来提取两种模态下特征的互补信息,在消除非互补信息干扰的同时丰富了特有特征细节表现,其可视化效果如

图2 多模特征融合模块
Fig.2 Multimode feature fusion module
多模特征融合模块采用级联融合策略,由去噪模块和图像重建模块组成,能全面融合红外和可见光图像,有效捕捉复杂的空间细节,最大程度消除冗余信息的影响.融合过程如下:
(7) |
式中:、、、、和分别表示可见光模板图像、红外模板图像、融合模板图像、可见光检测图像、红外检测图像和融合检测图像;表示按照通道维度拼接.融合后的图像通过去噪模块消除图像中的噪声,其中是去噪器,计算过程如下:
(8) |
式中:表示互补模板特征,表示互补检测特征.
1.3 特征交互学习模块
为了有效地融合可见光模态和红外模态的互补特征,充分利用潜在的隐藏信息,设计了特征交互学习模块,如

图3 特征交互学习模块
Fig.3 Feature interactive learning module
(9) |
(10) |
式中:表示第i个颈部模块特征输出;表示卷积;是缩放因子.在和之间建立了不同模态的交叉特征相关矩阵之后,采用生成归一化的注意矩阵,最后与相乘生成交叉模态特征相关矩阵.为了学习到不同模态之间更多的注意分布,提出算法采用多头注意力机制进行学习:
(11) |
(12) |
式中:为权重;为头数;表示从红外模态到可见光模态的判别特征变换;表示从可见光模态到红外模态的判别特征变换.
为了增强网络特征学习能力,在多头跨模注意模块后引入通道注意机制为不同模态的通道级特征分配权重系数.计算过程如下,其中表示和通过通道注意机制的运算:
(13) |
1.4 特征空间位移模块
与可见光图像相比,红外图像通常缺乏重要的纹理信息.尽管多模特征融合模块能有效减少网络中冗余信息的干扰,提高目标特征细节表现.但由于热重叠,红外图像存在热源目标边缘模糊的现象.因此,设计了特征空间位移模块以有效增强热源目标边缘表示.该模块对颈部网络提取的特征进行分组空间位移,该位移操作不仅能提高目标边界的清晰度,同时能保持精简的参数结构,其实现过程为:首先,从颈部模块获得红外模板特征和红外检测特征,其中, 沿通道维度将分为四组:
(14) |
式中:,令,,,.之后,从宽度和高度两个维度进行空间位移,移动过程如
(15) |

图4 特征空间位移模块
Fig.4 Feature space shift module
(16) |
(17) |
1.5 区域选择生成网络
为了提升前景和背景分类精度,更精确地确定锚框位置.本文将区域生成网
(18) |
其中表示相关运算.回归分支可提取精确的目标边界框,其输出表示为,和分别表示回归分支输出的模板特征和检测特征.回归分支表示为:
(19) |
其中表示相关运算.在获得6个分支的得分图后,将两种模态的得分图进行融合.
(20) |
(21) |
1.6 自适应区域选择模块
为了提高跟踪算法的鲁棒性并在跟踪推理阶段确定最佳区域,提出的算法设计了自适应区域选择模块.首先,采用余弦窗有效抑制锚框大幅位移,减少跟踪目标位置的偏移.此外,引入比例惩罚机制抑制锚框长宽比的变化,确保跟踪目标的形状和尺寸一致性.最后,对不同候选区域得分进行重新排序,确定最佳的候选区域.
为索引集,变量和分别表示锚点的位置.为锚框表示.边界框映射的点集得到的细化坐标表示为:
细化区域的计算表示为:
(22) |
对区域选择生成网络得到的和中的峰值进行索引,比较后选择最佳候选区域.将形状调整为,其中奇数通道代表前景信息,用来表示,奇数通道中的每个元素代表区域被分类为正样本的概率.接着,增加比例惩罚减轻目标大小和比例的显著变化,应用余弦窗函数抑制锚框大幅位移,得到预测区域:
(23) |
式中: 为超参数; 表示所有尺度的区域;表示区域的最后一帧;表示区域的长宽比;表示区域最后一帧的长宽比;为比例惩罚因子;表示余弦函数.从和中得到和,然后比较峰值得分并返回最大值:
(24) |
式中:表示最大值元素的索引;表示两个数组中的最大值,并返回最大值元素的索引.最佳候选区域通过从到的映射关系来确定.
2 实验结果与分析
2.1 实验细节
在英伟达RTX 3090 GPU及酷睿 i9 13900k 平台进行实验,PyTorch版本为1.8.0.采用端到端训练,训练过程中使用多个损失函数加权组合,其中分类损失采用交叉熵损失函数,回归损失采用平滑L1损失函数.本文提出的架构可学习参数为0.36×1
2.2 跟踪数据集评估
为了评估跟踪算法的整体性能,分别在GTOT数据集、RGBT234数据集上与最先进的跟踪算法进行比较.如
Trackers | MANet++ (2019) | MANet(2018) | DAFNet (2022) | GCMP (2021) | SiamCDA (2021) | SiamDL (2022) | TAAT (2022) | DFAT (2023) | SiamCSR (2023) | Ours |
---|---|---|---|---|---|---|---|---|---|---|
GTOT | 90.1/72.3 | 89.4/72.4 | 89.1/71.2 | 86.9/71.1 | 87.7/73.2 | 88.8/73.1 | 85.8/69.6 | 89.3/72.3 | 88.2/70.9 | 90.5/72.8 |
RGBT234 | 78.1/54.0 | 77.7/53.9 | 79.6/54.4 | 75.1/49.1 | 76.0/56.9 | — | — | 76.1/54.4 | 75.4/53.2 | 78.7/56.8 |
FPS | 27 | 2 | 23 | 35 | 37 | 45 | 34 | 20 | 140 | 32 |
2.2.1 GTOT数据集
GTOT包含50个成对的RGB-T视频序列,标注了包括遮挡(OCC)、大尺度变化(LSV)、快速运动(FM)、热交叉(TC)、低照明(LI)、变形(DEF)和小物体(SO).在GTOT数据集上,将提出算法与TAAT、SiamCS

图5 GTOT数据集成功率比较结果
Fig.5 Comparison results of success rates in the GTOT dataset

图6 GTOT数据集精度比较结果
Fig.6 Comparison results of precision rate in GTOT dataset
Method | SiamDW+RGBT(2019) | SiamRPN++(2019) | DFAT (2023) | MANet (2018) | DAFNet (2022) | MANet++ (2019) | SiamCDA (2021) | SiamCSR (2023) | Ours |
---|---|---|---|---|---|---|---|---|---|
OCC | 67.5/53.6 | 70.3/587 | 86.3/68.7 | 88.2/69.6 | 87.3/68.4 | 89.0/70.1 | 82.2/69.4 | 86.9/67.2 | 86.4/70.2 |
LSV | 68.9/56.5 | 76.5/64.3 | 92.4/75.0 | 86.9/70.6 | 82.2/66.4 | 86.6/69.3 | 91.5/74.8 | 88.1/67.2 | 89.4/71.0 |
FM | 71.1/57.6 | 75.9/65.9 | 89.1/74.0 | 87.9/69.4 | 80.9/64.2 | 86.7/69.4 | 86.6/72.0 | 82.9/64.3 | 85.3/69.0 |
LI | 70.0/58.8 | 68.9/58.3 | 92.2/74.1 | 91.4/73.0 | 89.9/72.7 | 91.7/73.1 | 92.4/76.4 | 88.9/72.0 | 92.6/73.0 |
TC | 63.5/51.7 | 76.6/64.0 | 89.1/70.7 | 88.9/70.2 | 89.8/70.3 | 89.9/70.7 | 82.6/68.5 | 87.7/68.5 | 90.3/72.2 |
SO | 76.4/58.5 | 82.2/64.7 | 94.4/71.9 | 93.2/70.0 | 93.8/69.8 | 93.9/69.9 | 87.4/69.1 | 89.0/67.0 | 91.5/70.8 |
DEF | 69.1/58.2 | 71.0/59.3 | 91.9/73.5 | 92.3/74.2 | 94.7/76.5 | 93.7/74.4 | 87.9/72.7 | 90.0/73.3 | 94.1/74.8 |
ALL | 68.8/55.0 | 72.5/61.7 | 89.3/72.3 | 89.4/72.4 | 89.1/71.2 | 90.1/72.3 | 87.7/73.2 | 88.1/70.0 | 90.5/72.8 |
与先进的跟踪方法相比,提出的算法在保证实时性的同时,达到了90.5%的准确率和72.8%的成功率.与MANe
2.2.2 RGBT234数据集
RGBT234是一个大型的RGB-T跟踪数据集,包含234个视频集,共计233 000 帧.一共包括了12个挑战属性,其中包括无遮挡(NO)、部分遮挡(PO)、重度遮挡(HO)、低照明(LI)、低分辨率(LR)、热交叉(TC)、形变(DEF)、快速运动(FM)、尺度变化(SV)、运动模糊(MB)、摄像机移动(CM)和背景杂波(BC).在RGB-T234数据集上,将提出算法与MANe

图7 RGBT234数据集成功率比较结果
Fig.7 Comparison results of success rates in the RGBT234 dataset

图8 RGBT234 数据集精度比较结果
Fig.8 Comparison results of precision rate in the RGBT234 dataset
Method | SiamDW+RGBT(2019) | SiamRPN++ (2019) | SGT+RGBT (2017) | DFAT (2023) | SiamCDA (2021) | MANet (2018) | DAFNet (2022) | Ours |
---|---|---|---|---|---|---|---|---|
BC | 51.9/32.3 | 57.8/39.3 | 65.8/41.8 | 71.9/47.8 | 73.9/52.7 | 75.6/49.8 | 79.0/49.3 | 72.0/51.2 |
CM | 56.2/38.2 | 66.4/49.9 | 66.7/45.2 | 74.2/54.7 | 73.3/54.8 | 69.9/50.5 | 72.3/50.6 | 66.9/49.0 |
DEF | 55.8/39.0 | 69.5/53.2 | 68.5/47.4 | 76.0/57.5 | 74.9/57.4 | 72.3/52.4 | 74.1/51.6 | 77.7/57.5 |
FM | 45.4/29.9 | 65.3/46.9 | 67.7/40.2 | 65.4/46.2 | 61.4/45.4 | 71.1/45.5 | 74.0/46.5 | 64.0/44.5 |
HO | 52.0/33.7 | 59.4/43.4 | 59.2/39.4 | 63.9/45.5 | 67.5/49.5 | 66.5/45.9 | 68.6/45.9 | 71.9/51.8 |
LI | 60.0/39.9 | 59.3/42.4 | 70.5/46.2 | 78.3/56.2 | 82.2/60.3 | 81.7/56.0 | 81.2/54.2 | 78.7/56.3 |
LR | 60.5/37.0 | 66.4/46.5 | 75.1/47.6 | 75.2/51.5 | 70.9/49.9 | 78.5/51.3 | 81.8/53.8 | 75.8/54.0 |
MB | 49.4/34.0 | 64.5/48.7 | 64.7/43.6 | 62.6/50.2 | 63.5/47.4 | 66.5/48.2 | 70.8/50.0 | 64.9/47.7 |
NO | 78.3/53.4 | 83.8/64.2 | 87.7/55.5 | 93.3/69.6 | 88.9/66.8 | 91.4/64.9 | 90.0/63.6 | 84.1/61.8 |
PO | 60.8/39.6 | 73.5/54.3 | 77.9/51.3 | 80.7/59.2 | 78.8/60.0 | 83.1/58.4 | 85.9/58.8 | 83.3/60.1 |
SV | 60.9/40.5 | 72.7/55.5 | 69.2/43.4 | 77.4/57.3 | 74.3/56.8 | 77.8/54.8 | 79.1/54.4 | 79.3/57.3 |
TC | 56.9/36.8 | 70.6/53.0 | 76.0/47.0 | 67.5/49.4 | 68.0/47.9 | 72.9/52.9 | 81.1/58.3 | 72.9/53.2 |
ALL | 60.4/39.7 | 69.7/51.7 | 72.0/47.2 | 76.1/54.4 | 76.0/56.9 | 77.8/54.4 | 79.6/54.4 | 78.7/56.8 |
2.3 有效性分析

图9 跟踪效果可视化对比图
Fig.9 Comparative visualization of tracking results
2.4 消融实验
在GTOT数据集上测试了5个变体网络,以验证设计的模块的有效性.如
多模特征融合模块 | 特征交互学习模块 | 特征空间位移模块 | PR/SR | |
---|---|---|---|---|
双流主干 | 80.8/63.4 | |||
变体-v1 | 🗸 | 81.4/64.5 | ||
变体-v2 | 🗸 | 🗸 | 89.4/72.6 | |
变体-v3 | 🗸 | 🗸 | 88.3/71.1 | |
完整网络 | 🗸 | 🗸 | 🗸 | 90.5/72.8 |
为了进一步评估特征交互学习模块组件的有效性,本文在GTOT数据集上比较了两个变体组件,如
通道注意模块 | 多头跨模 注意模块 | PR/SR | |
---|---|---|---|
双流主干 | 80.8/63.4 | ||
变体组件-v1 | 🗸 | 87.4/70.8 | |
变体组件-v2 | 🗸 | 86.9/70.3 | |
完整组件 | 🗸 | 🗸 | 88.5/71.5 |
3 结 论
本文提出了基于孪生网络的特征融合位移RGB-T目标跟踪.首先,设计特征交互学习模块挖掘跨模信息,指导不同模态间的特征学习,并通过双向特征指导学习方式充分挖掘跨模态信息.随后,设计多模特征融合模块,通过去噪和特征融合的方式消除非互补信息对网络的干扰,增强特有特征细节和目标特征细节.最后,特征空间位移模块在不增加计算复杂度的情况下对颈部网络提取的特征进行分组空间位移,增强目标边缘特征表示.在两个RGB-T跟踪数据集上进行的大量对比实验证实了提出算法的优越性.消融实验评估了不同模块的有效性.
参考文献
DANELLJAN M,BHAT G,KHAN F S,et al.ATOM:accurate tracking by overlap maximization[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach,CA,USA.IEEE,2019:4660–4669. [百度学术]
BHAT G,DANELLJAN M,VAN GOOL L,et al. Learning discriminative model prediction for tracking[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul,Korea (South). IEEE, 2019: 6182-6191. [百度学术]
NAM H,HAN B.Learning multi-domain convolutional neural networks for visual tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas,NV,USA.IEEE,2016:4293-4302. [百度学术]
LAN X Y,YE M,SHAO R,et al.Learning modality-consistency feature templates:a robust RGB-infrared tracking system[J].IEEE Transactions on Industrial Electronics,2019,66(12):9887-9897. [百度学术]
LI C L,ZHU C L,HUANG Y,et al.Cross-modal ranking with soft consistency and noisy labels for robust RGB-T tracking[C]// Computer Vision – ECCV 2018.Cham:Springer International Publishing,2018:831-847. [百度学术]
LI C L,CHENG H,HU S Y,et al.Learning collaborative sparse representation for grayscale-thermal tracking[J]. IEEE Transactions on Image Processing,2016,25(12):5743-5756. [百度学术]
LI C L,SUN X,WANG X,et al. Grayscale-thermal object tracking via multitask Laplacian sparse representation[J].IEEE Transactions on Systems,Man,and Cybernetics:Systems, 2017,47(4): 673-681. [百度学术]
GUO C,YANG D D,LI C,et al.Dual Siamese network for RGBT tracking via fusing predicted position maps[J]. The Visual Computer, 2022, 38(7): 2555-2567. [百度学术]
GUO C Y,XIAO L.High speed and robust RGB-thermal tracking via dual attentive stream Siamese network[C]//IGARSS 2022—2022 IEEE International Geoscience and Remote Sensing Symposium. Kuala Lumpur,Malaysia.IEEE,2022:803-806. [百度学术]
LI C L,LU A D,ZHENG A H,et al.Multi-adapter RGBT tracking[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). Seoul,Korea (South).IEEE,2019. [百度学术]
TANG Z Y,XU T Y,WU X J.Temporal aggregation for adaptive RGBT tracking[EB/OL].2022:2201.08949.https://arxiv.org/abs/2201.08949v2. [百度学术]
HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas,NV,USA.IEEE,2016:770-778. [百度学术]
ZHANG T L,LIU X R,ZHANG Q,et al.SiamCDA:complementarity- and distractor-aware RGB-T tracking based on Siamese network[J].IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(3): 1403-1417. [百度学术]
LI Y D,LAI H C,WANG L J,et al.Multibranch adaptive fusion network for RGBT tracking[J].IEEE Sensors Journal, 2022, 22(7):7084-7093. [百度学术]
TANG Z Y,XU T Y,LI H,et al.Exploring fusion strategies for accurate RGBT visual object tracking[EB/OL].2022:2201.08673.https://arxiv.org/abs/2201.08673v1. [百度学术]
LI B,WU W,WANG Q,et al.SiamRPN:evolution of Siamese visual tracking with very deep networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach,CA,USA.IEEE,2019:4277-4286. [百度学术]
GIRSHICK R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago,Chile.IEEE, 2015: 1440-1448. [百度学术]
RUSSAKOVSKY O,DENG J,SU H,et al.ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252. [百度学术]
REAL E,SHLENS J,MAZZOCCHI S,et al.YouTube-BoundingBoxes:a large high-precision human-annotated data set for object detection in video[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu,HI,USA.IEEE,2017:7464-7473. [百度学术]
LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: common objects in context [C]// Computer Vision-ECCV 2014. Zurich, Switzerland. Springer, 2014: 740-755. [百度学术]
LI C L,LIANG X Y,LU Y J,et al.RGB-T object tracking:benchmark and baseline[J].Pattern Recognition,2019,96:106977. [百度学术]
LI C L,XUE W L,JIA Y Q,et al.LasHeR:a large-scale high-diversity benchmark for RGBT tracking[J].IEEE Transactions on Image Processing,2021,31:392-404. [百度学术]
GAO Y, LI C L, ZHU Y B,et al. Deep adaptive fusion network for high performance RGBT tracking[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). Seoul,Korea (South). IEEE, 2019: 91-99. [百度学术]
ZHANG Z P,PENG H W.Deeper and wider Siamese networks for real-time visual tracking[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach,CA,USA.IEEE, 2019: 4591-4600. [百度学术]
ZHANG H,ZHANG L,ZHUO L,et al. Object tracking in RGB-T videos using modal-aware attention network and competitive learning[J].Sensors,2020,20(2):393. [百度学术]
LI C L,ZHAO N,LU Y J,et al.Weighted sparse representation regularized graph learning for RGB-T object tracking[C]//Proceedings of the 25th ACM International Conference on Multimedia. Mountain View, California, USA. ACM,2017:1856-1864. [百度学术]
KIM H U,LEE D Y,SIM J Y,et al.SOWP:spatially ordered and weighted patch descriptor for visual tracking[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago,Chile. IEEE, 2015: 3011-3019. [百度学术]
DANELLJAN M,BHAT G,KHAN F S,et al.ECO:efficient convolution operators for tracking[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu,HI,USA.IEEE,2017:6931-6939. [百度学术]