摘要
针对复杂背景下航空遥感图像中多类别小尺度目标特征的理解困难和特征边界分割不清晰的问题,本研究构建了一种新型的分割模型,该模型通过综合主干网络特征并进行特征分类与重构来提升分割效果.模型以Swin-Transformer作为基础编码结构,利用其强大的全局语义信息捕捉能力进行特征抽取.进一步,本研究创新性地提出了信息聚合重构模块(IGRM)和通道区分重构模块(CRRM),这两种结构能够依据信息量对抽取的特征进行分类和重构,以此细化了对小尺度目标特征的处理.模型结合了上采样与下采样的特征连接,并将重构特征与编码器特征融合,形成多尺度特征聚合块,进而输出精确的分割结果.在处理复杂背景下的多目标场景时,本模型能够对细小尺度目标特征进行精确重构,生成高分辨率的分割图像,显著提升了分割的准确度.在ISPRS Potsdam和ISPRS Vaihingen数据集上,本模型取得了平均交并比(mIoU)分别为87.15%和82.93%、整体准确率(OA)分别为91.53%和91.4%的优异表现.为评估模型对多类别小尺度目标特征提取的泛化性能,本文还进行了针对复杂背景下小车类别的对比实验,在UAVid数据集上的mIoU达到了67.86%.
在现代计算机视觉领域,图像分割是核心任务之一,旨在根据图像内的类别对像素进行精确分类.随着航空遥感技
在分割模型技术演进的初期阶段, Long等科研人员开发出了全卷积网
借鉴相关研究思路和问题分析,旨在充分利用整体信息,并显著提升在复杂背景中对于微小目标的提取准确性,本文设计的模型在编码器部分采用Swin-Transforme
1 本文模型
本文构建了一个新型的语义分割网络架构—Swin-ERRM(通过重构模块提取各阶段特征并恢复分辨率),该模型通过融合Swin-Transformer在不同阶段捕获的语义信息,重新构建模块来增强特征图的清晰度.模型的总体布局如

图1 整体模型结构图
Fig.1 Overall model structure diagram
本文提出了信息聚合重构模块(IGRM)以及通道区分重构模块(CRRM).在此基础上,采用多尺度映射策略(包括合并上采样和下采样连接),有效融合了特征的多层级特性,从而优化了输出特征的多尺度表达能力.Swin-ERRM模型的设计初衷是为了应对语义分割任务中对小目标和复杂多目标场景的挑战.通过整合Swin-Transformer各阶段提取的全局语义信息,并利用重构模块恢复特
Swin-ERRM的设计旨在增强模型对全局和局部较小目标特征信息的理解,实现高效且精确的语义分割.在编码器中,通过多个Transformer Block的堆叠处理输入特征,并运用其多头自注意力运算点积计算特征,以此提升整体语义结构的构建效率.该模型构建了四个不同层次、不同尺寸的特征图,每一层都先进行下采样处理.在解码阶段,在主干网络里,对四个Transformer进行了处理,在Block阶段收集到的特征被转化为四个不同的特征区域,这些区域分别被标记为F1、F2、F3和F4.然后,利用设计的特征重构模块进行重建并补充细节信息,该单元对这些特征区域进行了细致的调节和增强,最后将其整合为一个综合特征,并通过头部分割生成最终的特征输出,以此强化模型对数据内在关联的处理能力,进而提高分割任务的性能.
1.1 信息聚合重构模块(IGRM)
信息聚合重构模块(information grouping reconstruction module, IGRM)的核心思想在于通过有效地分离和重构特征,以减少航空遥感图像分割中的冗余特征,从而提高分割结果的质量.在航空遥感图像中,受多个波段光谱的影响,以及相邻像素间的相关
此外,IGRM还引入了空洞空间金字塔池化模块(aisle spatial pyramid pooling, ASP
(1) |

图2 IGRM模块结构图
Fig.2 IGRM module diagram
在实施分组归一化机制时,依据通道数量将输入特征X拆分成多个特征小组,经过减去每组的均值μ和除以每组的方差σ实现特征Xout的规范化.这里,μ和σ表示输入特征X的均值和方差,ε是一个用于维持除法运算稳定的极小正数,γ作为可训练的缩放因子,它们与Wγ权重共同参与加权.特征Xout的计算如
(2) |
经过归一化处理的Xout值将被约束在(0,1)内,并且依据预定阈值T(通常设定为0.5)来实施筛选机制.那些高于阈值T的特征值被认定具有较高信息含量,反之,低于阈值T的则被划为信息贫乏的特征.接下来,利用交叉重组算法,把经过权重调整的两组特征彻底结合,以此提升特征间的信息交互效率.将经过交叉重组处理的特征XW1与XW2相拼接,进而形成富含语义信息的特征集.在此环节,采用空间金字塔池化调整并聚合多尺度的特征信息,从而达到多尺度的特征表达效果.在IGRM模块中,输出特征图记为O,其中i表示不同扩张率下的卷积核尺寸,s为卷积操作的步长,d为扩张率,而(d-1)代表卷积操作所需的填充数量,k表示标准卷积的核大小,P代表经过交叉重组处理后的两组特征集合(集合1和集合2).经过ASPP模块的综合处理,最终得到的特征图O的计算方式如
(3) |
(4) |
1.2 通道区分重构模块(CRRM)
在深度网络处理特征提取过程中,随着网络层数的增加及外部干扰的介入,往往会出现语义信息的部分遗失.针对这个问题,本文提出了一种按通道进行分类与重构的模块,即通道区分重构模块(CRRM).该模块的核心策略在于通过通道分类和重构技术,提升特征表示的丰富性和准确性.
本模块采纳全局平均池化配合一维卷积的方式,对特征图的通道关联性进行模型构建,并通过残差将其融合到原始输入特征权重中,从而实现对特征更精细和丰富的表示.设计超参数a及全局平均池化操作被用于分类特征,而一维卷积操作则将特征映射到原始特征图的通道维度上,以实现通道的重建,从而达到去除冗余特征的目的,并同时精细化原始特征.这一结构有效补偿了因网络深度增加和外部因素导致的语义损失,从而提升了特征的表达精度与丰富度,使得CRRM模块能够起到补偿网络深度增加导致语义失真缺陷的作用,进而提高特征精细度的表达和丰富度.
如

图3 CRRM模块结构图
Fig.3 CRRM module structure diagram
在此环节中,Xup数据被引入“多元化特征通道”.该通道运用高效能的卷积技术(例如GW
在另一条轨迹上,Xlow传递至次级转换通道中,借助1×1的卷积以及PWC卷积技术,形成了含有表层细节信息的特征映射,这作为增强特征提取路径的辅助环节.此举旨在制造出含有更丰富细节信息的特征映射,并将其映射为Y2.
当两个分支输出的特征Y1和Y2准备就绪后,将它们合并,进而采用全局均值汇聚技术提取融合特征Ym的通道域空间属性Sm.假设输入特征图的尺寸标识为H×W×C,其中H指代图像的高度,W指代图像的宽度,C指代图像的通道维度,对每一个独立通道而言,对其包含的全部像素特征值执行平均运算.空间属性Sm的确定依据
(5) |
全局平均池化计算出Ym的通道空间信息S1和S2后,将这两个信息上下堆叠,运用Softmax激活机制计算得出特征关键系数β1与β2.随后,实施残差拼接策略,将基础特征与加权组合XW的β1、β2系数相融合,以此提升特征信息的表达能力.随后,通过一个卷积层对通道数量进行优化调整,生成作为CRRM模块输出Yd的优化特征.CRRM模块的输出计算过程如
(6) |
1.3 多尺度映射及模型整体的输出关系
多尺度连接在特征提取网络中起到了重要的作用,其主要由下采样连接和整合上采样连接两部分组成.为实现不同模块间的信息交互与融合,从而生成丰富的特征输出,设计了多尺度连接模块.其具体结构如

图4 多尺度映射结构图
Fig.4 Cross-scale structure diagram
利用混合的下采样与上采样连接,该网络能在不同级别上捕捉到丰饶的语义内容,并对这些数据进行高效的综合,从而增强模型的效能与抗干扰能力.
下采样连接(down-sample connection):起初,通过1×1卷积对输入特征进行通道调整,随后采用2倍步长的3×3卷积配合步长为1的3×3卷积依次进行,接着进行批量规范化处理,并利用1×1卷积实现通道尺寸的再次调整,最终生成下采样连接的输出 D(x).该下采样连接旨在结合低级与高级特征模块的优势,D(x)的相关表达式可参照
(7) |
在构建下采样连接表达式时,输入变量x代表输入的向量.此处采用ReLU函数作为激活手段,并配置两个不同采样步长的3×3卷积层,其中前者的步长设定为2,后者则采用步长为1.每一组卷积层都融入了批量标准化流程.而其中的i与j变量分别代表输入与输出的通道数目,这一设置与Transformer模块在确定输出特征通道数量时的机制相吻合.
整合上采样连接(integration up-sample connection):该过程启动于特征通过1×1的卷积操作来实现通道调整.接着,通过应用步长为2、内核尺寸为2×2的反卷积操作以及扩张率设定为6、内核尺寸为3×3的扩张卷积运算,并分别实施上采样操作完成特征整合.随后,借助ReLU激活函数进行处理,完成非线性变换,进而生成整合上采样后的输出向量LU(x).为了高效地获取多层次的空间上下文信息,将扩张卷积与步长为2的反卷积操作结合嵌入局部上采样连接中,整合上采样的输出向量LU(x)的计算方式如
(8) |
其中,x代表输入的向量,通过复合函数将扩张率设置为12的扩张卷积层和一个转置率为6的转置卷积层进行嵌套;m和n分别表示输入和输出的通道数.
本文使用Swin-Tiny作为核心网络架构,其构成的多个Transformer模块依次设定的输出通道大小分别为96(首层)、192(次层)、384(第三层)和768(末层).在第1.1及1.2小节中,已经详细阐述了IGRM和CRRM两个功能单元的计算原理及其输出公式.而在1.3小节中,对多尺度特征融合的输出准则进行了阐述.整个模型从输入特征图像到最终输出的转换,是通过主干网络、IGRM模块、CRRM模块以及多尺度特征融合的连续处理实现的,具体的输出表达式可参照
(9) |
(10) |
(11) |
(12) |
1.4 损失函数
切块损失函数能显著地标注并强化目标区域,显示出卓越的效能.但在进行模型训练时,其稳定性不足的问题变得尤为明显,尤其是在处理微小目标检测任务时,这一问题可能会引发梯度溢出,进而干扰模型的训练效果.为了解决这个问题,可以结合其他损失函数,如二元交叉熵损失,来增强模型的鲁棒性.因此,本文提出了一种复合损失函数,将切块损失与二元交叉熵损失进行融合,具体形式见
(13) |
(14) |
(15) |
式中:N表示样本总数;K表示类别总数;表示正确标签,经过Softmax函数处理后的预测图为.是n个样本的网络输出预测图,每个图有k个类别;表示n个正确的语义分割标签,每个标签也有k个类别.
2 实验设计与结果分析
2.1 数据集
ISPRS Potsdam:标志性航空遥感数据集,以其丰富的城市景观著称.数据集中展示了丰富的地物类别,总共含有6个类别,涵盖不渗水表面、各类建筑物、低矮植物、林木、机动车以及其他琐碎元素.Potsdam数据集由38张尺寸为6 000×6 000像素的图片组成,每个像素代表实际距离的5 cm.此数据集中,有15张图片作为测试集使用,余下的23张图片则用作训练集.
ISPRS Vaihingen:数据集涵盖了33幅各式各样的航空遥感影像,其分辨率分布在2 000×4 000像素之间,对应的像素间距是9 cm.在这些图像上,可以观察到众多分散的微型建筑,具有丰富的地表特征和复杂的城市结构.与其他遥感数据集相比,Vaihingen在建筑物的多样性、道路网络的复杂性以及绿地和水体的分布方面展现了显著的特征.总共涵盖了6个图像类别.所有图像都被裁剪为1 024×1 024大小.
UAVid数据集:UAVid数据集是一个专注于城市场景理解的航空遥感语义分割数据集,由武汉大学、俄亥俄州立大学和特温特大学于2018年联合发布.该数据集中标注了8个类别,并选取了300张图像进行密集标记,为复杂背景下的语义分割任务提供了丰富的支持.该数据集能够评估算法在复杂背景下的性能.涵盖了街景中不同大小尺度的多种物体.
2.2 实验设备及评估指标
本实验基于Ubuntu 9.04系统和Pytorch框架,使用Tesla P40显卡、32 GB内存、512 GB固态硬盘及256 GB虚拟内存进行模型训练.训练时采用AdamW优化器,学习率分别为6×1
(16) |
(17) |
(18) |
(19) |
(20) |
式中:k表示样本类别数;TP为模型预测为正类的真实正样本;TN为模型预测为负类的真实负样本;FP为模型预测为正类的错误负样本;FN为模型预测为负类的错误正样本.精确度高表明预测错误较少,召回率高表明检测遗漏较少.F1分数和mIoU指标共同反映了模型的综合性能,数值越高,模型表现越优.
2.3 消融实验
利用ISPRS Potsdam数据集进行独立模块效能评估.
名称缩写 | 描述 |
---|---|
Baseline | 骨干基准 |
Baseline+IGRM | 基准+信息分组重构卷积 |
Baseline+CRRM | 基准+通道分类重构卷积 |
Baseline +IGRM+CRRM | 基准+信息分组重构卷积+通道分类重构卷积 |
方法策略 | OA | MF1 | mIoU |
---|---|---|---|
Baseline | 87.90 | 89.51 | 81.50 |
Baseline+IGRM | 88.71 | 90.50 | 83.19 |
Baseline+CRRM | 90.33 | 91.25 | 85.16 |
Baseline +IGRM+CRRM | 90.58 | 92.32 | 85.98 |
Baseline:在实验基础设置上,使用Swin-Tiny作为骨干网络,并通过四个核心Transformer Block单元执行特征的直接转换,从而构建出四个专门的特征融合模块,这些模块依次相互作用,最终汇聚成我们的基础模型框架.
在原有基准模型之上,加入了信息重组功能模块(IGRM).根据在ISPRS Potsdam数据集上进行的训练成果分析,观察到全局精度(OA)提升了0.81个百分点,F1指标(MF1)也有所提高, 提升了0.99个百分点,同时mIoU指标显著上升了1.69个百分点.这一提升证明了IGRM模块在整合深层与浅层语义信息方面的有效性,进一步提升了多目标特征的语义刻画精度.正如

图5 模型消融实验可视化结果对比图
Fig.5 Visualization comparison of model ablation experiments
Baseline+CRRM:在原有基准模型之上融合了信道判别组件(CRRM),通过对ISPRS Potsdam数据集的深度训练,观察到全局精度(OA)实现了2.43个百分点的提升,F1指标(MF1)增加了1.74个百分点,同时mIoU也得到了3.66个百分点的增强.该CRRM组件的设计宗旨是降低信道内信息的多余度,并通过调整参数来强化和优化多目标场景中细微目标的语义特性.正如
同时引入CRRM与IGRM后,基于基准模型的整体性能得到了显著提升.
2.4 对比实验
对比实验挑选了在paperwithcode平台上分割领域内较为先进的开源模型,例如,集成了位置和通道注意力的动态注意力网络DANet(发布于2019年)、基于空间语义路径构建的ABCNe
网络 | 骨干 | 内存占用/MB | 模型参数/M | 计算量/G | mF1/% | OA/% | mIoU/% |
---|---|---|---|---|---|---|---|
DANet | ResNet18 | 2 024.9 | 12.6 | 120.24 | 89.7 | 90.0 | 83.13 |
Segmenter | ViT-Tiny | 2 665.9 | 23.6 | 67.30 | 90.4 | 90.1 | 83.8 |
MAResUNet | ResNet18 | 658.51 | 15.2 | 41.29 | 91.3 | 90.2 | 85.4 |
ABCNet | ResNet18 | 1 873.2 | 14.0 | 62.16 | 92.0 | 90.4 | 85.9 |
MANet | ResNet18 | 2 131.6 | 12.0 | 87.25 | 92.5 | 90.6 | 86.0 |
Unetformer | ResNet18 | 1 591.7 | 11.9 | 51.67 | 92.8 | 91.0 | 86.7 |
SSG2 | ViT-Tiny | 5 538.0 | 21.6 | 60.38 | 92.5 | 90.4 | 86.83 |
Swin-ERRM | Swin-Tiny | 5 315.3 | 12.9 | 52.70 | 93.2 | 91.53 | 87.15 |
2.4.1 ISPRS Potsdam数据集上的对比实验
对比分割网络采用了国际领先的算法设计.具体参数对比情况见
网络 | 骨干 | F1 | mF1 | OA | mIoU | ||||
---|---|---|---|---|---|---|---|---|---|
不透水地表 | 建筑 | 低矮植被 | 树 | 车 | |||||
DANet | ResNet18 | 91.8 | 94.7 | 85.6 | 88.0 | 90.1 | 89.7 | 90.0 | 83.13 |
Segmenter | ViT-Tiny | 92.1 | 95.3 | 86.3 | 88.2 | 95.0 | 90.4 | 90.1 | 83.8 |
MAResUNet | ResNet18 | 93.1 | 95.8 | 86.9 | 88.0 | 95.1 | 91.3 | 90.2 | 85.4 |
ABCNet | ResNet18 | 93.0 | 95.5 | 87.2 | 88.5 | 95.0 | 92.0 | 90.4 | 85.9 |
MANet | ResNet18 | 92.3 | 95.1 | 86.5 | 88.3 | 95.9 | 92.5 | 90.6 | 86.0 |
Unetformer | ResNet18 | 93.3 | 95.5 | 87.7 | 89.0 | 94.2 | 92.8 | 91.0 | 86.7 |
SSG2 | ViT-Tiny | 92.7 | 95.1 | 87.9 | 88.9 | 96.0 | 92.5 | 90.4 | 86.83 |
Swin-ERRM | Swin-Tiny | 93.6 | 95.8 | 88.3 | 89.7 | 96.3 | 93.2 | 91.53 | 87.15 |

图6 在ISPRS Potsdam数据集上实验结果可视化对比图
Fig.6 Visualization comparison of experimental results on ISPRS Potsdam dataset
2.4.2 ISPRS Vaihingen数据集上类别对比实验
方法 | 骨干 | F1 | mF1 | OA | mIoU | ||||
---|---|---|---|---|---|---|---|---|---|
不透水地表 | 建筑 | 低矮植被 | 树 | 车 | |||||
DANet | ResNet18 | 90.7 | 93.6 | 81.5 | 88.3 | 80.8 | 85.2 | 87.8 | 77.2 |
Segmenter | ViT-Tiny | 91.0 | 93.8 | 82.5 | 89.3 | 83.9 | 86.5 | 88.5 | 78.0 |
MAResUNet | ResNet18 | 90.3 | 93.2 | 81.7 | 89.6 | 85.6 | 87.2 | 88.9 | 78.3 |
ABCNet | ResNet18 | 92.1 | 94.4 | 83.2 | 89.4 | 88.3 | 88.5 | 89.7 | 80.9 |
MANet | ResNet18 | 92.5 | 95.0 | 84.0 | 90.0 | 88.8 | 89.7 | 89.6 | 81.3 |
Unetformer | Resnet18 | 92.9 | 95.3 | 84.3 | 90.1 | 89.9 | 89.5 | 90.3 | 81.7 |
SSG2 | ViT-Tiny | 92.1 | 95.0 | 83.8 | 89.8 | 90.7 | 90.3 | 90.8 | 82.2 |
Swin-ERRM | Swin-Tiny | 92.7 | 95.3 | 84.5 | 90.3 | 96.3 | 91.7 | 91.4 | 82.93 |

图7 在ISPRS Vaihingen数据集上实验结果可视化对比图
Fig.7 Visualization comparison of experimental results on ISPRS Vaihingen dataset
2.4.3 复杂背景下较小目标的对比实验分析
为了更有效地展示本文提出的Swin-ERRM模型在复杂背景下对小尺度目标特征的分割能
模型 | 骨干 | P车 | mIoU | OA |
---|---|---|---|---|
DANet | ResNet18 | 47.2 | 61.4 | 83.8 |
Swin Transformer | Transformer | 55.6 | 65.9 | 84.8 |
Swin-ERRM | Swin-Tiny | 60.5 | 67.86 | 86.4 |

图8 在UAVid数据集上实验结果可视化对比图
Fig.8 Visualization comparison of experimental results on UAVid dataset
由
在可视化结果
相比之下,Swin-ERRM模型在小尺度目标类别及其边界的分割效果上表现优于DANet和Swin Transformer.这表明Swin-ERRM模型在处理小尺度目标方面具有更强的能力,能够更准确地提取和区分小尺度目标.
3 结 论
基于Swin Transformer网络,本文构建了一种新型航空遥感图像分割模型,命名为Swin-ERRM.该架构的设计宗旨是在含有众多目标的复杂场景中,识别并提取出细微尺度目标,同时针对Swin Transformer在特征提取阶段可能遗漏的语义细节进行补偿,有效应对航空遥感图像处理中关于小尺度目标识别精度不足的挑战.该架构融合了信息分组重构模块(IGRM)、通道分类重构模块(CRRM)以及复合上采样结构.IGRM对信息熵进行分级处理,从而达成对不同复杂度特征的融合与再塑,同时借助多层次的金字塔架构完成信息的跨级别传递.CRRM单元通过融合参数自适应调整以及锚点与分组形式的卷积操作,对特征维度进行了细致的归类与筛选,并利用全局均值池化与基础特征实现了残差整合,打造出成熟特征表示.Swin-ERRM架构大幅增强了在航空遥感图像中多目标分割的精确性,显示出其在处理复杂背景下小尺度目标特征方面的强大能力.
参考文献
吕杰 ,沈琦, 吕敏, 等. 基于深度学习的遥感影像语义分割研究进展[J]. 生态与进化前沿, 2023, 11: 1201125. [百度学术]
LÜ J, SHEN Q, LÜ M, et al. Research progress on semantic segmentation of remote sensing images based on deep learning[J]. Frontiers in Ecology and Evolution, 2023, 11: 1201125. (in Chinese) [百度学术]
刘光宇, 曹禹, 曾志勇, 等. 结合多特征赋权的谱聚类水下多目标分割技术[J]. 湖南大学学报(自然科学版), 2022, 49(10): 51-60. [百度学术]
LIU G Y,CAO Y,ZENG Z Y,et al. Underwater multi-object segmentation technology based on spectral clustering with multi-feature weighting[J].Journal of Hunan University (Natural Sciences),2022,49(10):51-60.(in Chinese) [百度学术]
KUMAR D, KUMAR D.Hyperspectral image classification using deep learning models:a review[J]. Journal of Physics:Conference Series, 2021, 1950(1): 012087. [百度学术]
LONG J,SHELHAMER E, DARRELL T.Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA,USA.IEEE,2015:3431-3440. [百度学术]
CHEN L C,PAPANDREOU G,KOKKINOS I,et al.DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834-848. [百度学术]
CHEN L C, ZHU Y K, PAPANDREOU G,et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Computer Vision-ECCV 2018. Cham: Springer International Publishing,2018:833-851. [百度学术]
FU J,LIU J,TIAN H J,et al.Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach,CA,USA.IEEE, 2019: 3141-3149. [百度学术]
YU C Q,WANG J B,PENG C,et al. BiSeNet:bilateral segmentation network for real-time semantic segmentation[M]//Computer Vision-ECCV 2018. Cham:Springer International Publishing, 2018: 334-349. [百度学术]
LIU Z,LIN Y T, CAO Y, et al.Swin transformer:hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal,QC, Canada. IEEE, 2021: 9992-10002. [百度学术]
WOO S, PARK J, LEE J Y, et al. CBAM:convolutional block attention module[M]//Computer Vision-ECCV 2018. Cham:Springer International Publishing, 2018: 3-19. [百度学术]
HUANG Z L,WANG X G,HUANG L C,et al.CCNet:criss-cross attention for semantic segmentation[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul,Korea (South). IEEE, 2019: 603-612. [百度学术]
CHEN Y P, FAN H Q,XU B,et al.Drop an octave:reducing spatial redundancy in convolutional neural networks with octave convolution[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul,Korea (South). IEEE,2019:3435-3444. [百度学术]
CHOLLET F.Xception:deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu,HI,USA.IEEE,2017:1800-1807. [百度学术]
CHEN L C,PAPANDREOU G,SCHROFF F,et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. [2024-04-30]. https://arxiv.org/abs/1706.05587v3. [百度学术]
WU Y X, HE K M. Group normalization[C]// Computer Vision-ECCV 2018.Cham:Springer International Publishing,2018. [百度学术]
KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM, 2017, 60(6): 84-90. [百度学术]
HUA B S,TRAN M K,YEUNG S K.Pointwise convolutional neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA.IEEE,2018: 984-993. [百度学术]
LI R,ZHENG S Y,ZHANG C,et al.ABCNet:attentive bilateral contextual network for efficient semantic segmentation of fine-resolution remotely sensed imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 181: 84-98. [百度学术]
JIANG K X, LIU J,ZHANG W H,et al. MANet:an efficient multidimensional attention-aggregated network for remote sensing image change detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 3328334. [百度学术]
WANG L B,LI R,ZHANG C,et al. UNetFormer:a UNet-like transformer for efficient semantic segmentation of remote sensing urban scene imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2022, 190: 196-214. [百度学术]
LI R,ZHENG S Y,DUAN C X,et al.Multistage attention ResU-net for semantic segmentation of fine-resolution remote sensing images[J].IEEE Geoscience and Remote Sensing Letters, 2021,19: 8009205. [百度学术]
STRUDEL R,GARCIA R,LAPTEV I,et al. Segmenter:transformer for semantic segmentation[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, QC, Canada. IEEE,2021: 7242-7252. [百度学术]
DIAKOGIANNIS F I,FURBY S,CACCETTA P,et al.SSG2:a new modelling paradigm for semantic segmentation[EB/OL]. 2023: 2310.08671.https://arxiv.org/abs/2310.08671v1. [百度学术]
ELHAJ K, ALSHAMSI D, ALDAHAN A. GeoZ:a region-based visualization of clustering algorithms[J].Journal of Geovisua- lization and Spatial Analysis, 2023, 7(1): 15. [百度学术]
HONG X,ROOSEVELT C H. Orthorectification of large datasets of multi-scale archival aerial imagery:a case study from türkiye[J]. Journal of Geovisualization and Spatial Analysis,2023,7(2): 23. [百度学术]
吴嘉昕, 王小鹏, 刘扬洋. 子空间与KL信息结合的FCM多光谱遥感图像分割[J]. 湖南大学学报(自然科学版), 2024, 51(8): 23-33. [百度学术]
WU J X,WANG X P,LIU Y Y. Fuzzy C-mean multi-spectral remote sensing image segmentation with combined subspace and KL information[J]. Journal of Hunan University (Natural Sciences), 2024, 51(8): 23-33.(in Chinese) [百度学术]