摘要
针对现有深度学习算法在壁画修复时,存在全局语义一致性约束不足及局部特征提取不充分,导致修复后的壁画易出现边界效应和细节模糊等问题,提出一种双向自回归Transformer与快速傅里叶卷积增强的壁画修复方法.首先,设计基于Transformer结构的全局语义特征修复模块,利用双向自回归机制与掩码语言模型(masked language modeling, MLM),提出改进的多头注意力全局语义壁画修复模块,提高对全局语义特征的修复能力.然后,构建了由门控卷积和残差模块组成的全局语义增强模块,增强全局语义特征一致性约束.最后,设计局部细节修复模块,采用大核注意力机制(large kernel attention, LKA)与快速傅里叶卷积提高细节特征的捕获能力,同时减少局部细节信息的丢失,提升修复壁画局部和整体特征的一致性.通过对敦煌壁画数字化修复实验,结果表明,所提算法修复性能更优,客观评价指标均优于比较算法.
敦煌莫高窟内珍藏着数量众多、内容丰富的石窟壁画资源,其以卓越的历史价值和艺术魅力而享誉世界.然而,受地理、气候环境和人为因素等多重影响,莫高窟内的壁画普遍受到龟裂、褪色等病害的侵袭,亟待保
目前数字化壁画修复方法主要分为传统方法和深度学习方法,其中传统方法主要包括:①像素扩
第二种是基于块匹配的传统修复方法,该类方法主要通过在壁画完好区域搜索匹配块,然后采用平移复制的方式完成破损区域的修复.如文献[
第三种是基于稀疏表示的传统修复方法,该类方法利用图像信息稀疏的特点,借助过完备变换的稀疏组合来表示图像信号,然后通过信号重构的方式实现图像缺失部分的恢
随着深度学习技术的发展,基于深度学习的壁画修复已经成为一种主流方法.深度学习图像修复方法通过深度神经网络模型来自动学习壁画图像特征以填补缺失部分,从而获得视觉上更加逼真的修复图像.目前,国内外学者开展了大量的研究工作,根据深度学习网络架构的不同,主要深度学习修复方法包括:①基于自编码器修复方
其中,深度学习第一种基于自编码器修复方法,其结构一般由编码器、解码器组成,主要利用编码器提取壁画图像特征,将其压缩到低维特征空间学习其语义特征,最终通过解码器将特征进行重构并输出修复结果.如文献[
深度学习第二种基于生成对抗网络GAN的图像修复方法,主要通过生成器学习原始壁画图像的先验分布,再通过鉴别器和生成器的博弈对抗来完成修复.如文献[
深度学习第三种基于Transformer架构修复方法,其主要原理是利用编码器对输入图像块嵌入向量进行处理,提取图像块之间关系和特征并生成高维特征表示,然后通过解码器生成修复后的图像.如文献[
综上所述,针对现有深度学习算法在壁画修复时,存在全局语义一致性约束不足及局部特征提取不充分,导致修复后的壁画易出现边界效应和细节模糊等问题,提出一种双向自回归Transformer与快速傅里叶卷积增强的壁画修复方法.主要工作包括:首先,设计基于Transformer结构的壁画全局语义特征修复模块,通过双向自回归多头注意力与掩码语言模型机制,对缺失像素进行推理,提升对壁画全局语义特征的修复能力.然后,构建由门控卷积和扩张卷积残差模块组成的全局语义增强模块,增强修复过程中对于壁画全局语义的一致性约束.最后,使用大核注意力机制与快速傅里叶卷积构建局部细节修复模块,通过大核注意力扩大感受野范围学习局部特征表示,并利用快速傅里叶卷积进行细节修复,再通过上采样阶段输出修复后的壁画图像.
1 本文算法
1.1 网络整体结构
壁画图像通常具有复杂的全局语义与局部细节信息,大多数深度学习模型采用卷积神经网络(CNN)提取局部特征,但是难以捕捉壁画全局特征表示.原始Transformer深度学习模型具有较强的全局特征信息提取能力,但其对局部特征学习有限,易造成局部细节丢

图8 人为破损壁画修复实验对比
Fig.8 Comparison of results for artificially damaged murals
图9 真实破损壁画修复实验对比图
Fig.9 Comparison of repair experiments for real broken murals
图10 修复结果局部放大对比图
Fig.10 Enlarged comparison of mural inpainting results
模型工作时,首先利用编码模块将待修复壁画编码为像素序列,其次通过本文提出的全局语义特征修复模块,提高对全局语义特征的修复能力.然后,进一步设计全局语义增强网络,使用残差块和门控卷积模块提取不同尺度的全局语义特征,增强壁画修复过程中全局语义一致性约束.最后,使用大核注意力机制与快速傅里叶卷积完成局部细节修复,并通过上采样得到修复后的壁画.
1.2 全局语义特征修复模块
在壁画修复过程中,由于普通卷积操作是一种基于局部区域的操作,仅具有局部相关性,其全局特征捕获能力较
在全局语义特征修复模块中,设计了一种双向自回归机制改进的Transformer全局修复模型,利用其建立序列中像素Token之间的依赖关
在建立壁画像素Token之间的依赖关系时,首先将输入的壁画图像Token序列化为,其中T表示序列长度.通过序列化可以将Token像素与前序Token像素和后序Token像素建立两个方向的依赖关系,从而通过捕获双向的特征信息实现壁画图像的上下文依赖关系.壁画图像序列化后缺失Token像素两个方向的概率分布分别为:和.接着,将上述两个概率分布以自回归的方式连接起来,作为缺失像素Token的推理条件,其过程可以用如下公式表示:
(1) |
式中:表示整个序列的概率分布;表示预训练数据的分布;E表示整个序列x从进行采样的期望值;ϕ表示训练过程中模型学习到的参数;t表示Token序号数;xt表示需要建立依赖关系像素Token;x>t表示序列中第t个Token之后的特征信息;x<t表示序列中第t个Token之前的特征信息.
由于普通注意力在捕获壁画语义特征信息过程中,仅关注缺失像素Token之前的完好像素特征信息,如图2(a)中完好壁画像素点1、2、3和4的先验信息,忽略了缺失像素Token的后序完好像素5、6和7的特征信息,导致缺失像素Token推理时局部先验信息未能充分利用,易出现推理误差的问题.为了提高对于缺失像素Token的推理性能,本文采用双向注意力进行缺失像素推理.双向注意力与普通注意力不同,如图2(b)所示,双向注意力从两个方向进行注意力计算,使模型不仅考虑到壁画缺失像素Token之前存在的语义特征信息,同时也捕获缺失像素Token之后的特征信息,壁画修复时通过双向注意力可以提升完好区域与受损区域之间的语义一致性.
在图2所示双向注意力过程中,计算如下:
(2) |
(3) |
式中:表示第n层多头自注意力层的输出;表示第n层全连接层的输出;n表示Transformer结构的层数;MSA为多头自注意力层;LN为归一化层;MLP为全连接层.其中,MH计算过程如下:
(4) |
(5) |
(6) |
式中:Attention表示自注意力分数;head表示独立计算每个头部的注意力分数;Concat表示对不同注意力头之间分数进行合并;h代表注意力头的个数;表示K的特征维度;Q,K,V是三个可学习的参数矩阵;是一个可学习的全连接层,其主要作用是融合来自不同head的输出.
在建立完像素Token之间依赖关系后,进一步通过掩码语言模型MLM实现破损像素Token的推理.掩码语言模型MLM是一种自然语言处理预测模型,其主要特点是通过捕获完好部分的先验信息来预测缺失的信
(7) |
式中:P表示对破损像素Token推理的概率分布;表示期望值;表示壁画像素Token序列; 表示确定破损像素Token的序列;表示破损像素对应的Token; 表示序列中Token序号数;θ表示模型训练过程学习到的参数.
1.3 全局语义增强模块
在完成上述全局语义特征修复后,本文进一步设计了全局语义增强模块来提高全局语义一致性.全局语义增强模块由门控卷
图4所示全局语义增强模块中,设计了门控卷积语义增强的编码器与解码器结构,实现对全局语义修复结果进行特征提取.门控卷积结合了卷积操作和门控单元,可捕捉壁画图像中不同尺度和位置的上下文信息,获取壁画图像浅层特征,其过程如下:
(8) |
(9) |
(10) |
式中:为特征值;为门控值;为卷积滤波器;表示全局语义修复特征图;表示ReLU激活函数;为Sigmoid 激活函数;表示门控卷积得到的特征图;为逐像素相乘操作.
然后,设计融合扩张卷积的残差块来扩展感受野范围,以便更好地获取壁画上下文信息.在该过程中,扩张卷积根据扩张因子在水平与垂直两个方向分别选取壁画特征图上的像素点进行卷积运算,其计算过程如下:
(11) |
式中:为输出特征;为输入特征图;为特征图上点坐标;为扩张因子;为滤波器;表示滤波器大小.
接着将壁画图像进行解码操作,得到不同尺度的全局语义特征.
1.4 局部细节修复模块
在完成全局语义增强后,为了进一步提高壁画修复结果的完整性与细节协调性,减少修复后局部细节丢失,设计了局部细节修复模块,其结构如图5所示.该模块由基于大核注意力机制LKA的采样部分和快速傅里叶卷积FFC网络组成.
1.4.1 大核注意力机制
图5所示局部细节修复模块中,引入了大核卷积注意
大核卷积注意力机制LKA采用深度卷积(depth wise-Conv, DW-Conv)和扩张深度卷积(depth wise-dilated-Conv, DW-D-Conv)来获取壁画细节特征信息.扩张深度卷积输出后采用1×1卷积,然后将输出的注意力图与输入特征相乘,计算过程如下:
(12) |
(13) |
式中:为输入特征图;为注意力值;为深度卷积操作;表示对特征图进行扩张深度卷积的操作;为逐像素相乘.
1.4.2 快速傅里叶卷积网络
在完成下采样阶段的特征提取后,本文采用快速傅里叶卷
在图7中,快速傅里叶卷积FFC对于壁画图像进行频域卷积处理,采用实数快速傅里叶卷积操作,计算过程如下:
(14) |
在
(15) |
接着,在频域使用ReLU激活函数,并通过归一化层和1×1卷积完成频域卷积操作,该过程表示如下:
(16) |
然后,应用逆变换恢复空间结构,该过程表示如下:
(17) |
(18) |
式中:表示张量的实部;表示张量的虚部;为特征图的高度;为宽度;为通道数.
完成逆傅里叶变换后,将全局分支修复结果与局部分支中普通卷积后的结果融合,并通过归一化层与RelU激活函数层,最后利用大核卷积上采样后输出修复结果,从而完成破损壁画修复.
2 损失函数
本文损失函数由L1损失、对抗损失和感知损失构成.其中L1损失函数仅在壁画图像的未破损区域进行计算,公式如下:
(19) |
式中:表示0-1掩码,其中1表示壁画破损区域即掩码区域,0表示壁画完好区域;表示逐元素相乘;与分别表示真实壁画图像与修复后的壁画图像.
对抗损失的引入有助于生成器生成性能,提高生成壁画图像的真实性以及其结构与纹理的一致性.对抗损失由鉴别器损失与生成器损失构成,其定义为:
(20) |
(21) |
(22) |
式中: 表示惩罚梯度;1
感知损失通过基本预训练网络评估从修复的壁画图像中提取的特征与目标壁画图像之间的距离,通过感知损失来衡量两者之间的相似性,表示为:
(23) |
式中: 表示逐元素运算;与可以通过傅里叶卷积实现.
因此,本文模型的总损失函数计算公式可以表示为:
(24) |
式中:、、分别为L1损失、对抗损失和感知损失的对应权重.
3 实验结果与分析
3.1 实验数据集及实验参数设置
为了验证所提方法的有效性,下面进行对比实验.采用自制敦煌壁画数据集,选取高清敦煌壁画图像作为数据集来源,并对其进行扩展后形成 21 000张壁画数据集,其中训练数据集含壁画图像14 600张, 测试数据集含壁画图像6 400张.同时与文献[
3.2 人为添加随机掩码修复实验
首先进行人为添加随机掩码修复实验,其修复结果如
为了验证壁画修复结果的质量,下面采用峰值信噪比(PSNR)和结构相似性(SSIM)对
图像 | 文献[ | 文献[ | 文献[ | 文献[ | 文献[ | 文献[ | 文献[ | 文献[ | 本文方法 |
---|---|---|---|---|---|---|---|---|---|
Image1 | 15.457 4 | 20.772 4 | 21.248 6 | 18.512 0 | 21.560 9 | 21.618 5 | 20.215 2 | 20.629 6 | 22.898 7 |
Image2 | 23.115 1 | 19.683 2 | 22.989 6 | 17.496 6 | 20.661 1 | 20.200 8 | 18.468 5 | 23.336 0 | 31.591 5 |
Image3 | 28.131 2 | 28.117 3 | 27.584 6 | 18.632 6 | 26.108 9 | 25.958 6 | 26.594 8 | 27.872 2 | 34.728 0 |
Image4 | 27.149 0 | 28.182 0 | 26.255 0 | 20.210 4 | 27.475 0 | 26.902 2 | 24.217 9 | 27.683 5 | 28.946 3 |
Image5 | 24.768 7 | 26.476 2 | 27.601 6 | 21.993 2 | 25.336 4 | 25.321 2 | 22.988 1 | 28.222 6 | 35.794 3 |
Image6 | 20.348 7 | 20.319 1 | 21.076 5 | 18.767 7 | 20.398 7 | 18.378 1 | 18.019 2 | 20.576 2 | 21.307 7 |
图像 | 文献[ | 文献[ | 文献[ | 文献[ | 文献[ | 文献[ | 文献[ | 文献[ | 本文方法 |
---|---|---|---|---|---|---|---|---|---|
Image1 | 0.769 1 | 0.818 0 | 0.819 7 | 0.721 4 | 0.802 3 | 0.805 0 | 0.778 3 | 0.808 6 | 0.824 6 |
Image2 | 0.812 7 | 0.861 3 | 0.840 9 | 0.691 1 | 0.763 2 | 0.755 6 | 0.757 5 | 0.850 9 | 0.866 2 |
Image3 | 0.971 4 | 0.971 5 | 0.968 5 | 0.891 2 | 0.944 2 | 0.939 7 | 0.950 6 | 0.966 0 | 0.985 1 |
Image4 | 0.960 1 | 0.967 7 | 0.949 6 | 0.889 1 | 0.963 1 | 0.956 0 | 0.922 7 | 0.965 4 | 0.967 6 |
Image5 | 0.947 3 | 0.967 5 | 0.955 4 | 0.930 9 | 0.952 7 | 0.954 0 | 0.943 2 | 0.953 2 | 0.989 7 |
Image6 | 0.918 3 | 0.920 8 | 0.927 5 | 0.911 7 | 0.921 6 | 0.891 7 | 0.864 3 | 0.928 6 | 0.930 8 |
在完成对壁画修复结果PSNR和SSIM客观定量评价后,为了说明本文对破损壁画结构修复的有效性,进一步采用梯度相似性(gradient magnitude similarity deviation, GMSD)评价指标进行定量比较,GMSD公式如下:
(25) |
式中:;和分别是图像和的梯度幅值;是的均值;是一个常数,用于避免分母为零.
GMSD反映了图像修复前后的结构信息偏差,其值越小,表明修复后结构和语义变化越小,越接近于真实值,其修复性能越优.对于
图像 | 文献[ | 文献[ | 文献[ | 文献[ | 文献[ | 文献[ | 文献[ | 文献[ | 本文方法 |
---|---|---|---|---|---|---|---|---|---|
Image1 | 0.336 48 | 0.328 93 | 0.322 54 | 0.205 05 | 0.233 15 | 0.228 41 | 0.260 30 | 0.324 24 | 0.191 36 |
Image2 | 0.287 25 | 0.236 88 | 0.247 90 | 0.294 03 | 0.278 60 | 0.278 91 | 0.290 27 | 0.240 79 | 0.203 11 |
Image3 | 0.192 70 | 0.192 41 | 0.191 76 | 0.210 56 | 0.192 40 | 0.181 82 | 0.224 14 | 0.183 31 | 0.149 25 |
Image4 | 0.240 11 | 0.247 96 | 0.238 52 | 0.288 26 | 0.240 65 | 0.245 54 | 0.295 10 | 0.240 80 | 0.226 62 |
Image5 | 0.272 16 | 0.251 73 | 0.227 26 | 0.243 24 | 0.232 56 | 0.231 97 | 0.238 89 | 0.225 12 | 0.161 30 |
Image6 | 0.185 53 | 0.191 56 | 0.177 49 | 0.206 49 | 0.182 66 | 0.197 13 | 0.221 81 | 0.175 30 | 0.166 97 |
3.3 真实破损壁画修复实验
为了进一步验证有效性,选取了四组真实破损敦煌壁画进行修复实验,修复结果如
为了更加直观地比较
一般采用信息熵与图像模糊度对无参照真实破损壁画进行客观评价,对
方法 | Image 1 | Image 2 | Image 3 | Image 4 | ||||
---|---|---|---|---|---|---|---|---|
信息熵 | 模糊度 | 信息熵 | 模糊度 | 信息熵 | 模糊度 | 信息熵 | 模糊度 | |
文献[ | 6.996 3 | 13.812 4 | 6.896 2 | 11.540 2 | 6.946 1 | 9.635 4 | 6.810 1 | 9.288 7 |
文献[ | 6.966 3 | 13.796 8 | 6.926 2 | 11.568 9 | 6.936 8 | 9.687 5 | 6.699 0 | 9.284 4 |
文献[ | 7.028 9 | 13.712 5 | 6.908 2 | 11.540 4 | 6.987 4 | 9.385 7 | 6.708 2 | 9.288 5 |
文献[ | 6.905 8 | 13.804 1 | 6.941 0 | 11.573 2 | 6.989 9 | 9.563 3 | 6.759 2 | 9.515 5 |
文献[ | 6.884 6 | 13.757 4 | 6.936 2 | 11.583 4 | 6.967 2 | 9.573 9 | 6.742 2 | 9.322 2 |
文献[ | 7.021 8 | 13.721 5 | 6.939 6 | 11.584 3 | 6.968 1 | 9.580 4 | 6.742 9 | 9.319 7 |
文献[ | 6.971 1 | 13.744 7 | 6.946 3 | 11.655 5 | 6.976 5 | 9.721 4 | 6.763 3 | 9.614 8 |
文献[ | 7.060 9 | 13.574 8 | 6.953 4 | 11.514 5 | 6.963 2 | 9.687 4 | 6.720 2 | 9.521 4 |
本文方法 | 7.077 2 | 13.706 7 | 7.038 2 | 11.505 2 | 6.994 4 | 9.357 3 | 6.822 6 | 9.278 3 |
4 结 论
本文提出了一种双向自回归Transformer与快速傅里叶卷积增强的壁画修复方法.首先,设计基于Transformer结构的全局语义特征修复模块,提高对壁画全局语义特征的修复能力.其次,设计了由门控卷积和扩展卷积残差块组成的全局语义增强模块,采用大核注意力机制与快速傅里叶卷积提高了壁画细节的修复能力.最后通过敦煌壁画修复实验,结果表明,所提方法修复性能更优,在主客观评价方面均优于比较算法.
参考文献
潘云鹤,鲁东明.古代敦煌壁画的数字化保护与修复[J].系统仿真学报,2003,15(3):310-314. [百度学术]
PAN Y H,LU D M. Digital protection and restoration of Dunhuang mural[J]. Journal of System Simulation,2003,15(3):310-314.(in Chinese) [百度学术]
WANG H,LI Q Q,JIA S.A global and local feature weighted method for ancient murals inpainting[J].International Journal of Machine Learning and Cybernetics,2020,11(6):1197-1216. [百度学术]
SCHAEFER K,WEICKERT J.Diffusion–shock inpainting[M]//Scale Space and Variational Methods in Computer Vision.Cham:Springer International Publishing,2023:588-600. [百度学术]
陈永,艾亚鹏,郭红光.改进曲率驱动模型的敦煌壁画修复算法[J].计算机辅助设计与图形学学报,2020,32(5):787-796. [百度学术]
CHEN Y,AI Y P,GUO H G.Inpainting algorithm for Dunhuang mural based on improved curvature-driven diffusion model[J].Journal of Computer-Aided Design & Computer Graphics,2020,32(5):787-796.(in Chinese) [百度学术]
李丽,高若婉,梅树立,等.基于Shannon-Cosine小波精细积分法的壁画降噪修复方法[J].浙江大学学报(理学版),2019,46(3):279-287. [百度学术]
LI L,GAO R W,MEI S L,et al.Mural image de-noising based on Shannon-Cosine wavelet precise integration method[J].Journal of Zhejiang University (Science Edition),2019,46(3):279-287.(in Chinese) [百度学术]
BHELE S,SHRIRAMWAR S,AGARKAR P.An efficient texture-structure conserving patch matching algorithm for inpainting mural images[J].Multimedia Tools and Applications,2023,82(30):46741-46762. [百度学术]
焦莉娟,王文剑,李秉婧,等.改进的块匹配五台山壁画修复算法[J].计算机辅助设计与图形学学报,2019,31(1):118-125. [百度学术]
JIAO L J,WANG W J,LI B J,et al.Wutai mountain mural inpainting based on improved block matching algorithm[J].Journal of Computer-Aided Design & Computer Graphics,2019,31(1):118-125.(in Chinese) [百度学术]
LECOUAT B,PONCE J,MAIRAL J.Fully trainable and interpretable non-local sparse models for image restoration[M]//Computer Vision – ECCV 2020.Cham:Springer International Publishing,2020:238-254. [百度学术]
GUO K H,LABATE D,RODRIGUEZ AYLLON J P.Image inpainting using sparse multiscale representations: image recovery performance guarantees[J]. Applied and Computational Harmonic Analysis, 2020, 49(2): 343-380. [百度学术]
王欢,李利,李庆,等.一种结合全局一致性与局部连续性的壁画修复方法[J].湖南大学学报(自然科学版),2022,49(6):135-145. [百度学术]
WANG H,LI L,LI Q,et al.A global uniform and local continuity repair method for murals inpainting[J].Journal of Hunan University (Natural Sciences),2022,49(6):135-145.(in Chinese) [百度学术]
陈永,杜婉君,赵梦雪.改进多重字典联合自适应学习的稀疏壁画修复[J].湖南大学学报(自然科学版),2023,50(12):1-9. [百度学术]
CHEN Y,DU W J,ZHAO M X.Improved sparse mural restoration algorithm using joint adaptive learning of multiple dictionaries[J].Journal of Hunan University (Natural Sciences),2023,50(12):1-9.(in Chinese) [百度学术]
YANG J,RUHAIYEM N I R,ZHOU C C.A 3M-hybrid model for the restoration of unique giant murals:a case study on the murals of Yongle Palace[EB/OL]. [2024-04-20]. https://arxiv.org/abs/2309.06194v1. [百度学术]
赵磊, 林思寰, 林志洁, 等.中国古画渐进式多级特征修复算法[J].计算机辅助设计与图形学学报,2023,35(7):1040-1051. [百度学术]
ZHAO L,LIN S H,LIN Z J,et al.Progressive multilevel feature inpainting algorithm for Chinese ancient paintings[J].Journal of Computer-Aided Design & Computer Graphics,2023,35(7):1040-1051.(in Chinese) [百度学术]
WADHWA G,DHALL A,MURALA S,et al.Hyperrealistic image inpainting with hypergraphs[C]//2021 IEEE Winter Conference on Applications of Computer Vision (WACV). Waikoloa,HI,USA.IEEE,2021:3911-3920. [百度学术]
GUO X F,YANG H Y,HUANG D.Image inpainting via conditional texture and structure dual generation[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, QC, Canada. IEEE, 2021: 14114-14123. [百度学术]
WANG N,LI J Y,ZHANG L F,et al.MUSICAL:multi-scale image contextual attention learning for inpainting[C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence.Macao,China. 2019: 3748-3754. [百度学术]
YANG J,QI Z Q,SHI Y.Learning to incorporate structure knowledge for image inpainting[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12605-12612. [百度学术]
YU Y S, WANG H, LUO T J, et al. MaGIC: multi-modality guided image completion[EB/OL]. (2023-05-19)[2023-11-04]. https://doi.org/10.48550/arXiv.2305.11818. [百度学术]
LIU W J,SHI Y Q,LI J C,et al.Multi-stage progressive reasoning for Dunhuang murals inpainting[C]//2023 IEEE 4th International Conference on Pattern Recognition and Machine Learning (PRML). Urumqi,China.IEEE,2023:211-217. [百度学术]
NAZERI K,NG E,JOSEPH T,et al.EdgeConnect:generative image inpainting with adversarial edge learning[EB/OL].[2024-04-20].https://arxiv.org/abs/1901.00212v3. [百度学术]
LI L X,ZOU Q, ZHANG F,et al.Line drawing guided progressive inpainting of mural damage[EB/OL]. [2024-04-20].https://arxiv.org/abs/2211.06649v2. [百度学术]
LI J Y,WANG N,ZHANG L F,et al.Recurrent feature reasoning for image inpainting[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle,WA,USA.IEEE,2020:7757-7765. [百度学术]
赵磊,吉柏言,邢卫,等.基于多路编码器和双重注意力的古画修复算法[J].计算机研究与发展,2023,60(12):2814-2831. [百度学术]
ZHAO L,JI B Y,XING W,et al.Ancient painting inpainting algorithm based on multi-channel encoder and dual attention[J].Journal of Computer Research and Development,2023,60(12):2814-2831.(in Chinese) [百度学术]
ZENG Y,LIN Z,LU H C,et al.CR-fill:generative image inpainting with auxiliary contextual reconstruction[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal,QC,Canada.IEEE,2021:14144-14153. [百度学术]
LI W B,LIN Z,ZHOU K,et al.MAT:mask-aware transformer for large hole image inpainting[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans,LA,USA.IEEE,2022:10748-10758. [百度学术]
DENG Y,HUI S Q,ZHOU S P,et al.T-former:an efficient transformer for image inpainting[C]//Proceedings of the 30th ACM International Conference on Multimedia. Lisboa,Portugal.ACM, 2022: 6559-6568. [百度学术]
ZENG Y H, FU J L, CHAO H Y,et al. Aggregated contextual transformations for high-resolution image inpainting[J]. IEEE Transactions on Visualization and Computer Graphics, 2023, 29(7):3266-3280. [百度学术]
王真言, 蒋胜丞, 宋奇鸿, 等.基于Transformer的文物图像修复方法[J].计算机研究与发展,2024,61(3):748-761. [百度学术]
WANG Z Y,JIANG S C,SONG Q H,et al. Transformer-based image restoration method for cultural relics[J]. Journal of Computer Research and Development,2024,61(3): 748-761.(in Chinese) [百度学术]
LIU Q K,TAN Z T,CHEN D D,et al.Reduce information loss in transformers for pluralistic image inpainting[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans,LA,USA.IEEE,2022:11337-11347. [百度学术]
PENG Z L,GUO Z H,HUANG W,et al.Conformer:local features coupling global representations for recognition and detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(8):9454-9468. [百度学术]
VASWANI A, SHAZEER N, PARMAR N,et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook, NYCurran Associates Inc,2017:6000-6010. [百度学术]
LI Z C,ZHANG S T,ZHAO H,et al. BatGPT:a bidirectional autoregessive talker from generative pre-trained transformer[EB/OL]. [2024-04-20]. https://arxiv.org/abs/2307.00360v2. [百度学术]
DEVLIN J, CHANG M W, LEE K T,et al. BERT: pretraining of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minnesota, MN:Association for Computational Linguistics,2019:4171-4186. [百度学术]
ZHOU J H, WEI C, WANG H Y, et al. iBOT:image BERT pre-training with online tokenizer[EB/OL]. [2024-04-20]. https://arxiv.org/abs/2111.07832v3 [百度学术]
QIU X P,SUN T X,XU Y G,et al.Pre-trained models for natural language processing:a survey[J].Science China Technological Sciences, 2020, 63(10): 1872-1897. [百度学术]
YU J H, LIN Z, YANG J M, et al. Free-form image inpainting with gated convolution[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul,Korea (South).IEEE, 2019: 4470-4479. [百度学术]
LI Y H, ZHANG X F, CHEN D M. CSRNet:dilated convolutional neural networks for understanding the highly congested scenes[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT, USA. IEEE,2018: 1091-1100. [百度学术]
GUO M H,LU C Z,LIU Z N,et al.Visual attention network[J].Computational Visual Media,2023,9(4):733-752. [百度学术]
SUVOROV R,LOGACHEVA E,MASHIKHIN A,et al.Resolution-robust large mask inpainting with Fourier convolutions[C]//2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Waikoloa,HI,USA.IEEE,2022:3172-3182. [百度学术]
JAIN J, ZHOU Y Q, YU N, et al. Keys to better image inpainting:structure and texture go hand in hand[C]//2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Waikoloa, HI, USA. IEEE,2023: 208-217. [百度学术]
ILYA L, FRANK H .Decoupled weight decay regularization[EB/OL].(2019-01-04)[2023-11-23].https://doi.org/10.48550/arXiv. 1711.05101. [百度学术]