摘要
针对图像缺失区域与其周围的纹理、结构密切相关而无法准确推断缺失区域内容的问题, 提出一种单阶段图像修复模型. 通过卷积层和FastStage模块对特征进行压缩、重建和增强, 结合自注意力和多层感知机来捕捉特征之间的上下文关系. 在模型中引入EMMA机制. 以增强生成器对特征的注意力和重要性感知, 避免模型参数的更新出现抖动和振荡现象,从而提高生成器的性能和生成结果的质量. 通过判别器对修复后的图像与原始图像的一致性进行评估. 针对CelebA、Places2以及Paris StreetView数据集进行的端到端实验结果表明, 相较于现有的经典方法, 该模型的修复结果更符合视觉语义, 能够精细地修复图像的细节纹理和局部特征.
图像修复旨在对受损图像进行最大限度的还原,使填充像素与未缺失像素融合在一起,修复结果接近于原
传统的图像修复方法分为两类:基于补丁的方法和基于扩散的方法, 基于补丁的方
近年来,深度学习方法在图像修复领域得到了广泛的应用,它能够从大规模数据中学习图像的特征表示,并通过生成器网络生成高质量的修复结果.生成器网络通过学习修复缺失或损坏的图像,并能够处理各种复杂情况. 基于注意力机制的修复算法将传统像素匹配概念引导到图像特征空间中,利用注意力机制在缺失区域中搜索最相似的特征块进行特征匹配. 与传统方法相比, 这种方法能够更好地捕捉图像特征的相关性, 并实现更准确的特征匹配. You
针对以上问题,本文提出一种EMMA注意力与多尺度融合下的图像修复方法,该方法是一个单阶段修复网络,它主要由三部分构成:生成网络、局部判别器和全局判别器.生成网络是编码器-解码器的架构,用于完成图像修复任务.其通过学习图像的上下文信息和纹理特征,尝试填充和恢复缺失的像素. 通过引入全局和局部判别器,以提高修复网络的性能和稳定性.
在人脸、街道和建筑数据集上进行的实验表明,本文提出的方法能更好地修复受损图片. 其创新性主要体现在:
1)提出一个EMMA注意力模块, 通过综合利用平滑的特征表示和注意力感知的特征表示, 增强网络对输入特征的表达能力, 使模型在修复过程中更加关注缺失区域周围的重要结构和纹理细节.
2)在编码和解码阶段引入FastStage模块,该模块提供高效的特征提取和表示学习能力,有助于网络更好地理解和恢复图像的缺失区域,从而在与周围联系紧密的缺失区域中较为合理地填充内容.
3)通过改进全局-局部判别器, 利用VGG网络提取特征并计算损失, 对细节网络的输出进行判别优化, 从而增强修复结果的整体和局部一致性. 这种修复方法旨在改善修复质量, 使修复结果更加真实.
1 相关工作
1.1 图像修复
Pathak
1.2 生成对抗网络
生成对抗网络(GAN)是一种参数模型, 主要用于生成高质量的图像. 它由生成器(G)和判别器(D)两部分组成. 生成器基于随机向量(通常服从某种先验分布)生成图像, 判别器评估输入的图像属于真实图像的概率. 生成器的目标是生成逼真的图像, 而判别器则在训练过程中起“监督”作用, 通过评估图像的真实性来“鼓励”生成器学习真实图像的分布. 然而, 原始GAN模型难以训练, 且容易遭受崩溃模式的影响. 因此, 研究者提出了一些方法来改进GAN的性能. 部分方法通过修改损失函数以获得更好的性能, 如Wasserstein生成对抗网络(WGANs
然而,鉴于生成对抗网络可能产生完全不相关的图像,直接将其应用于图像修复任务是不可行的.图像修复任务要求更精确和准确地恢复丢失或损坏的图像内容.因此,针对图像修复,需要在生成对抗网络的基础上进行进一步的改进和定制,以满足图像修复任务的特定需求.
2 本文算法
2.1 整体模型
本文模型如

图1 整体结构
Fig.1 Overall structure
生成器采用编码器-解码器结构. 编码器通过卷积层和FastVi
判别器通过使用全局判别器和局部判别器进行训练,以区分真实图像和修复图像.全局判别器对整个图像进行评估,用于判断整体一致性;局部判别器则专注于补全小区域, 以确保生成的补丁在局部上保持一致性.
2.2 生成器
生成器采用编码器-解码器结构.
编码器首先通过卷积层对输入图片进行压缩;然后,通过两个FastStage 模块,对特征进行重建和增强 .其中FastStage模块的结构如

图2 FastStage结构
Fig.2 FastStage structure
其中, FastStage模块能够提供更准确的特征表示,从而在与周围联系紧密的缺失区域中较为合理地填充内容.
在解码器和编码器中间, 利用EMMA注意力 模块以及密集多尺度融合模块进行数据处理. 其中, 密集多尺度融合模块如

图3 密集多尺度融合模块
Fig.3 Dense multi-scale fusion block
DMFB主要作用是提取和加强输入特征,实现特征提取、特征融合和残差连接.其通过一系列的卷积操作和残差连接来执行特征处理,用于提取输入特征的高级表示. 通过多尺度的卷积操作(包括不同的空洞率)和残差连接来引入非线性变换和上下文信息, 从而增强输入特征的表达能力.
解码器通过卷积层对特征进行处理并减少通道数, 然后通过上采样-FastStage模块-上采样结构进行处理. 其中,第一个上采样模块将输入特征图从4×nf维度上采样到2×nf维度, 即从尺寸为64×64的特征图恢复到尺寸为128×128. 第二个上采样模块将尺寸为128×128的特征图恢复到尺寸为256×256. FastStage模块在上采样层之间用于增强特征图的表示能力. 最后通过卷积将特征图通道数转换为输出图像所需的通道数, 并通过tanh激活进行输出结果的映射.
2.3 EMMA
EMMA结构如

图4 EMMA结构
Fig.4 EMMA structure
综上所述, 左侧部分同时保留每个通道上的信息并降低计算开销. 其核心思想是将部分通道重塑为批量维度, 并将通道维度分组成多个子特征组, 以确保空间语义特征在每个特征组中均匀分布.
右侧部
可见,右侧部分通过注意力分数和权重调节, 根据可见区域和生成区域的相似度, 在每个空间位置上对编码特征和解码特征进行加权. 这样既可以保留重要的可见区域信息, 也可以结合生成区域的相似度,生成最终的加权特征表示.
综上所述, 左侧部分能够捕捉不同层级的特征信息,提供了更准确的纹理和结构表示.它可以理解图像中不同尺度的细节信息,使模型对于缺失区域与周围区域的关系有更深入的认知.而右侧部分使模型能够更加集中地关注重要的图像区域. 这样可以使模型在修复过程中更加关注缺失区域周围的重要结构和纹理细节.
2.4 判别器
判别器由全局判别器和局部判别器组成.
全局判别器由一系列卷积块组成, 通过卷积操作、激活函数和批归一化来提取和处理输入图像的全局特征, 这些卷积块逐渐减小特征图的尺寸并增加通道数, 将输出的特征输入全局分类器进行分类.
局部特征提取器首先初始化一个注意力感知模块(AAL
将局部特征和全局特征在通道维度上拼接在 一起, 形成最终的特征向量.将该特征向量输入到LeakyReLU 激活函数和线性层,得到一个表示对输入图像的判别结果的标量.
2.5 损失函数
2.5.1 自引导回归损失(self-guided regression loss)
自引导回归损失是一种用于解决图像语义结构保持问题的方法.它将输入图像通过VGG19网络进行前向传递,生成一个五级特征图金字塔,空间分辨率逐渐降低.该方法旨在提高完整图像的细节保真度,尤其是针对建筑图像和人脸图像,通过使用自引导回归约束,可以优化生成图像与真实图像之间的差异图,从而更好地保留图像的细节信息.
为了更好地区分掩码区域和已知区域,我们根据生成图像和原图之间的误差来生成引导图,其可以在训练过程中用作额外的约束,以指导生成器生成更精确、质量更高的图像.为此,采用
(1) |
其中:N代表三个颜色通道; n表示输出图像的第n个通道; 表示输出图像的第n个通道; 表示输入图像的第n个通道.
归一化掩码通过
(2) |
其中: 表示在位置p处的错误映射值; 是该层特征图中最大的误差值; 则是最小的误差值.
对应第l层特征图, 表示为
(3) |
AP表示平均池化操作,内核大小为2、步长为2. 将其表示为: ,的值范围为0~1.
由于低层特征图包含更为详细的信息, 因此, 本文选择第一层和第二层这两个层级描述图像语义结构的特征张量. 这些层级通常具有更多关于图像语义结构的细节. 自引导回归损失定义为
(4) |
其中:是给定输入I∗的第l层的激活图;是的第l层的元素数量;是元素乘积算子;引用了文献[
与传统的像素空间相比, 本文的自引导回归损失更加注重较低层级的语义空间. 这种方法的优势在于它能够在感知图像合成中保留具有结构信息的特点. 这种方式能够更好地优化具有复杂语义结构的图像区域, 提高图像合成的质量.
2.5.2 几何对齐约束(geometrical alignment constraint)
传统解决方案通常使用基于像素的损失来评估高级特征空间的度量, 如L1或L2损失. 然而, 这种方法没有考虑到每个高级特征图的语义中心是否对齐.
为了更准确地衡量预测特征和真实目标之间的距离,本文引入了几何对齐约束,应用于第四层的响应图中.这个约束有助于生成器创建一个在位置上与目标图像对齐的合理图像. 具体而言,几何对齐约束使生成图像的输出特征图的中心与目标特征图的中心在空间上靠近. 本文通过计算在轴u上第k个特征图的几何中心来实现这一约束. 计算公式为
(5) |
其中:响应图; 表示空间概率分布函数; 表示沿轴u的坐标期望.
本文将生成的图像IOutput和真实图像Igt通过VGG网络传递, 得到相应的响应图R'和R. 在给定这些响应图的情况下, 我们使用
(6) |
2.5.3 特征匹配损失(feature matching loss)
VGG特征匹配损失比较了训练良好的VGG19模型的中间层的激活图, 可以写成
(7) |
其中:是 中的元素数;代表第l层输入图像的激活图;是第l层输出图像的激活图.
本文在判别器特征匹配损失中引入了局部分支. 这种局部分支的作用是合理地假设生成的图像与任何以高维空间度量的真实地面图像是一致的. 判别器特征匹配损失的定义如下:
(8) |
其中:是给定输入的判别器的第 l 个选定层中的激活. 需要注意的是, 判别器的隐藏层是可训练的,与在ImageNet数据集上预训练的VGG19网络有所不同. 本文判别器可以根据特定的训练数据自适应地更新其隐藏层参数.
2.5.4 对抗性损失(adversarial loss)
为了提高内部绘图结果的视觉质量, 本文采用了ESRGAN中的相对论平均判别器. 对于生成器部分, 本文引入对抗性损失, 定义如下:
(9) |
其中:, 表示不包含最后Sigmoid函数的判别器网络;是从真实图像和输出图像中采样的.
2.5.5 总体损失(overall loss)
本文结合自引导回归损失、几何对齐约束、VGG特征匹配损失、判别器特征匹配损失、对抗性损失和平均绝对误差(MAE)损失, 得到整体损失函数:
(10) |
其中:λ、β、ε、δ用于平衡上述损失的影响;LMAE为平均绝对误差损失.
3 实验
3.1 实验环境
实验环境是基于Windows 11系统, Python3.7和PyTorch环境, 硬件环境包括了Intel Core i9-13900HX处理器,16 G内存, 采用NVIDIA GeForce RTX 2060 SUPER图形处理器.
在模型训练初始阶段,将学习率设置为0.000 2, 批次大小设置为4, 迭代次数设置为100 000. 将输入图像的大小均设置为256×256, 评价指标采用峰值信噪比 (peak signal-to-noise ratio, PSNR) 、结构相似性 (structural similarity, SSIM) 和L2损失函数3种客观评价指标和人眼主观视觉对修复结果进行分析, 并与Context Encode
本文采用3个公共图像数据集来验证模型的性能. 这些公共图像数据集在图像修复任务中被广泛应用, 旨在提供多样化的图像内容和具有挑战性的修复场景, 从而评估模型在真实世界中的通用性和准确性. 对于不规则掩膜数据集, 它提供了具有不同形状和位置的不规则遮挡掩膜, 以模拟真实世界中出现的破损或遮挡情况.
CelebA:一个大规模的人脸数据集, 包含超过20万张图像. 该数据集被广泛用于人脸识别、人脸表情识别和属性分析等任务.
Places2:一个用于场景识别的数据集, 包含超过1 000万张图像,覆盖了场景、建筑、自然景观等多个类别.该数据集常被用于图像分类、图像生成和场景理解等领域的研究.
Paris StreetView:该数据集包含了约14 900张用于训练的图像以及100张用于测试的图像, 这些图像均来自巴黎真实的街景景观.
3.2 实验结果与分析
将本文所提出的方法与3.1节中提到的4种对比算法在结构相似性(SSIM)、峰值信噪比(PSNR)及L2损失进行对比,本文算法在各项指标上表现出明显的优势.

图5 CelebA数据集修复对比
Fig.5 Comparison of repair based on CelebA dataset

图6 Paris StreetView数据集修复对比
Fig.6 Comparison of repair based on Paris StreetView dataset

图7 Places2数据集修复对比
Fig.7 Comparison of repair based on Places2 dataset
修复算法 | CelebA | ||
---|---|---|---|
PSNR/dB | SSIM | L2 | |
DMFN | 24.31 | 0.923 6 | 0.106 2 |
CSA | 26.03 | 0.923 7 | 0.091 2 |
Context Encoder | 22.14 | 0.872 4 | 0.173 1 |
ShiftNet | 26.12 | 0.921 7 | 0.079 6 |
Ours | 27.21 | 0.937 1 | 0.073 4 |
修复算法 | Paris StreetView | ||
---|---|---|---|
PSNR/dB | SSIM | L2 | |
DMFN | 21.46 | 0.845 5 | 0.134 7 |
CSA | 23.24 | 0.832 6 | 0.125 6 |
Context Encoder | 22.99 | 0.753 5 | 0.136 0 |
ShiftNet | 21.35 | 0.835 6 | 0.115 9 |
Ours | 24.31 | 0.862 5 | 0.102 0 |
修复算法 | Place2 | ||
---|---|---|---|
PSNR/dB | SSIM | L2 | |
DMFN | 21.58 | 0.857 0 | 0.160 7 |
CSA | 22.47 | 0.869 5 | 0.124 7 |
Context Encoder | 19.43 | 0.752 5 | 0.166 2 |
ShiftNet | 20.71 | 0.864 1 | 0.175 3 |
Ours | 23.31 | 0.878 5 | 0.102 6 |

图8 在3个数据集上不规则掩码修复对比
Fig.8 Comparison of irregular mask repair on three datasets
3.3 消融实验
为了验证本文方法的有效性, 本文在中心正方形掩码下进行测试. 在同等条件下, 本文分别移除了相应的模块, 并对3个数据集进行了定性和定量对比. 这样的对比可以更好地揭示本文方法与其他方法之间的差异和优势. 通过这些实验数据,可以更具说服力地证明本文方法的有效性.
如

图9 消融实验结果对比
Fig.9 Comparison of ablation experimental result
模块 | PSNR/dB | SSIM | L2 |
---|---|---|---|
+FastStage(a) | 24.31 | 0.924 1 | 0.102 2 |
+FastStage+AAL(b) | 25.46 | 0.930 5 | 0.078 9 |
+FastStage+AAL+EMMA(c) | 28.64 | 0.937 6 | 0.071 2 |
4 总 结
本文提出的单阶段修复模型旨在解决图像中缺失区域与周围纹理和结构密切相关时, 传统方法可能无法准确推断缺失区域内容的问题, 从而使修复结果更符合实际需求. 该模型充分利用卷积、自注意力和多层感知机的优点, 以实现对特征的提取和重建. 此外, 本文通过引入EMMA注意力模块, 进一步提升了特征融合和降噪的能力, 确保修复结果能够满足实际需求. 经过实验评估, 针对人脸、街景以及建筑数据集进行的端到端实验结果表明, 该模型的修复结果更符合视觉语义, 能够精细地修复图像的细节纹理和局部特征.
参考文献
张红英, 彭启琮. 数字图像修复技术综述[J]. 中国图象图形学报,2007(01):1-10. [百度学术]
ZHANG H Y,PENG Q C.A survey on digital image inpainting[J].Journal of Image and Graphics,2007,12(1):1-10.(in Chinese) [百度学术]
CRIMINISI A,PEREZ P,TOYAMA K.Region filling and object removal by exemplar-based image inpainting[J].IEEE Transactions on Image Processing,2004,13(9):1200-1212. [百度学术]
BARNES C,SHECHTMAN E,FINKELSTEIN A,et al.PatchMatch:a randomized correspondence algorithm for structural image editing[C]//Seminal Graphics Papers:Pushing the Boundaries.August 3-7,2009,New York,NY,USA:ACM,2023:619-629. [百度学术]
SUN J, JIA J, TANG C K. Efficient patch-based inpainting for large-scale image editing[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(6): 1038-1050. [百度学术]
YOU Y L,XU W Y,TANNENBAUM A,et al.Behavioral analysis of anisotropic diffusion in image processing[J].IEEE Transactions on Image Processing,1996,5(11):1539-1553. [百度学术]
LIU G L,REDA F A,SHIH K J,et al.Image inpainting for irregular holes using partial convolutions[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2018:89-105. [百度学术]
ZENG Y H,FU J L,CHAO H Y,et al.Learning pyramid-context encoder network for high-quality image inpainting[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA:IEEE,2019:1486-1494. [百度学术]
LI J Y,WANG N,ZHANG L F,et al.Recurrent feature reasoning for image inpainting[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:7757-7765. [百度学术]
PATHAK D,KRÄHENBÜHL P,DONAHUE J,et al.Context encoders:feature learning by inpainting[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA:IEEE,2016:2536-2544. [百度学术]
IIZUKA S,SIMO-SERRA E,ISHIKAWA H.Globally and locally consistent image completion[J].ACM Transactions on Graphics,2017,36(4):1-14. [百度学术]
YI Z L,TANG Q,AZIZI S,et al.Contextual residual aggregation for ultra high-resolution image inpainting[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:7505-7514. [百度学术]
WANG Y, TAO X, QI X J,et al.Image inpainting via generative multi-column convolutional neural networks[EB/OL]. 2018:1810.08771. https://arxiv. org/abs/1810.08771v1. [百度学术]
ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein generative adversarial networks[C]//International conference on machine learning. PMLR, 2017: 214-223. [百度学术]
MAO X D,LI Q,XIE H R,et al.Least squares generative adversarial networks[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:2813-2821. [百度学术]
MEHRALIAN M,KARASFI B.RDCGAN:unsupervised representation learning with regularized deep convolutional generative adversarial networks[C]//2018 9th Conference on Artificial Intelligence and Robotics and 2nd Asia-Pacific International Symposium.December 10-10,2018,Kish Island,Iran.IEEE,2018:31-38. [百度学术]
HATAMIZADEH A,HEINRICH G,YIN H X,et al.FasterViT:fast vision transformers with hierarchical attention[EB/OL].2023:2306.06189.https://arxiv.org/abs/2306.06189v2 [百度学术]
OUYANG D, HE S, ZHAN J,et al.Efficient multi-scale attention module with cross-spatial learning[EB/OL].ArXiv, 2023, abs/2305.13563.DOI:10.1109/ICASSP49357.2023.10096516. [百度学术]
ZHENG C X,CHAM T J,CAI J F,et al.Bridging global context interactions for high-fidelity image completion[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-24,2022,New Orleans,LA,USA:IEEE,2022: 11502-11512. [百度学术]
ZHOU Y,ZHU Z,BAI X,et al.Non-stationary texture synthesis by adversarial expansion[J].ACM Transactions on Graphics,2018,37(4): 1-13. [百度学术]
OUYANG D L,HE S,ZHANG G Z,et al.Efficient multi-scale attention module with cross-spatial learning[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).June 4-10,2023,Rhodes Island,Greece: IEEE, 2023: 1-5. [百度学术]
YAN Z Y,LI X M,LI M,et al.Shift-net:image inpainting via deep feature rearrangement[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2018:3-19. [百度学术]
LIU H Y,JIANG B,XIAO Y, et al.Coherent semantic attention for image inpainting[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 2,2019, Seoul, Korea (South). IEEE, 2019: 4169-4178. [百度学术]