+高级检索
网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

结合注意力机制和Gabor滤波器的人脸伪造检测  PDF

  • 罗维薇
  • 岳田田
  • 雷琴
兰州交通大学 电子与信息工程学院,甘肃 兰州 730070

中图分类号: TP391.4

最近更新:2025-04-24

DOI: 10.16339/j.cnki.hdxbzkb.2025263

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

针对假人脸和真实人脸纹理的显著差异,提出了一种基于纹理特征的人脸伪造检测模型.首先,以ResNet18为主干网络,结合通道注意力机制和残差网络解决网络退化的问题,并建立通道之间的联系以提取深层特征;其次,运用自相关矩阵来量化图像块之间的相关性,捕捉图像中不同尺度的特征以获取全局统计特征;最后,通过在自相关模块的每个池化层后引入Gabor滤波器,提取图像的局部纹理特征,全面描述图像内容,并采用Softmax函数对输入图像进行层次化分类.实验结果表明,对于不同的图像增强方法编辑的假图像,该方法有效提升了检测准确率.

在信息数字化的时代,图像处理和计算机视觉技术的发展大幅提高了社会生产力,尤其是数字图像技术的高速发展也推动了图像伪造技术的发展.近年来,深度学习的出现使生成逼真人脸技术愈发成

1.一些先进的深度学习方法,例如基于生成对抗网络的图像和视频生成技术,已经开始广泛应用于电子游戏制作、影视创作、虚拟现实(virtual reality, VR)等领2.然而科技是一把双刃剑,技术的进步既给人们带来了全新的体验,在一定程度上丰富了人们的精神生活,但同时也带来了一系列的社会问题.技术的滥用可能导致社会秩序混乱,给政治、经济、社会和国家安全带来巨大挑3.网络时代的快速发展,深度学习的应用将人脸身份篡改技术推向了新的发展阶段,基于生成对抗网络(generative adversarial network, GAN4的虚假视频、图像频繁出现,如色情视频、身份盗窃5,甚至利用伪造技术进行诈骗犯罪等.深度人脸伪造技术带来了许多不确定的因素,因此开展深度人脸伪造检测的研究显得尤为关键.

目前,人脸伪造检测成为一个亟待解决的问题,吸引了众多学者的关注.例如,Guo等

6提出了一种自适应操作痕迹提取网络(adaptive manipulation traces extraction network, AMTEN),结合CNN构建了一个假人脸检测器AMTENnet,平均准确率高达98.52%;Saad Eldien等7采用ANN和ResNet18两种不同的神经网络模型对图像进行分类,结果表明,所提出的模型在检测虚假图像方面是一个很有前途的方法;Kim等8提出了卷积神经网络混合人脸取证框架,结合通用图像取证和人脸图像取证,以提高检测性能; Hsu等9采用成对学习的方法提高了人脸伪造检测的精度; Qian等10发现深度伪造图像中的伪影会被压缩操作破坏,但是在频域中仍然可以检测到,提出了空频结合的深度伪造检测方法;Wang等11提出了一种通用的假人脸检测器,该检测器被证明可以很好地泛化到从未见过的GAN模型中检测伪造图像;Zhao等12为了挖掘更多细微的伪影,采用多注意力机制进行深度伪造检测,并将其形式化为细粒度分类的问题;张军等13提出采用自监督学习结合二元监督学习的解决方案,可以进一步提升人脸伪造检测模型的检测性能;Bonettini等14提出的多网络基础假脸检测模型,是利用全局人脸的特征进行检测的;Liu等15认为纹理在区分真实人脸和伪造人脸方面有着重要作用,观察和分析人脸纹理特征对于设计准确的检测算法是至关重要的,提出的Gram-Net被认为是一种很有前途的人脸伪造检测方法;Li等16提出了一种通用的人脸伪造检测算法,通过利用真实人脸图像进行简单的融合自动合成换脸图像以及融合边界图.将原始图像和自动生成的融合边界图一同输入HRnet(high-resolution net)系统加以训练,模型利用预测融合边界来确定图像的真实性.尽管此检测方法在训练与检测时取得了较好的结果,但是面对低辨识度图像时检测性能会明显减弱,而且在鉴别由GAN完全生成的伪造图像时显示出局限性,不适用于检测由GAN完全生成的伪造图像.所以,目前需要设计出一种新的检测模型来有效识别真假人脸图像,其中最关键的是设计出一种准确、轻便的伪造人脸图像检测模型.

本文的主要贡献有三个方面:

1) 提出了一种新的网络框架,对ResNet18网络架构进行改进,将有效通道注意 (efficient channel attention, ECA)模块与经典的ResNet模型相结合,成功避免了降维问题,并充分利用深度残差结构来提升模型性能.

2)纹理信息对于生成的人脸图像具有更强的鲁棒性,提出了基于纹理特征提取的检测方法,利用Gabor滤波器的特征,对伪造人脸的纹理特征信息进行检测.

3)引入自相关矩阵,它在衡量两个图像块之间的相关性方面发挥了重要作用,并且专注于提供一种平稳的纹理描述,能够更全面地捕捉图像块之间的纹理关系,为模型提供更鲁棒的特征表示.

1 本文方法

1.1 总体网络框架

为深入研究纹理特征对人脸伪造检测的影响,如图1(a)所示,对ResNet18网络结构进行改进.本文选择在原始的瓶颈结构(bottleneck layer)的1×1卷积后添加ECA注意力机制模块,构成新的Bottleneck_ECA模块.在输入图像和每个下采样层之前,将GBlock模块添加到改进的ResNet网络中,在不同的语义层次上合并纹理信息.在多种纹理特征提取方法中,本文选择结合Gabor滤波器和自相关矩阵的方法,将其嵌入ResNet18网络中,为模型提供更为全面和有效的纹理信息.最后经过平均池化和全连接层进行分类,判别人脸的真伪,从而提高人脸伪造检测的性能.本文的总体框架如图1所示.

fig

(a)  

fig

(b) Bottleneck_ECA模块

(c) GBlock模块

  

图1  模型总体结构

Fig.1  Overall model structure

1.2 基于ResNet的ECA注意力

ResNet能够很好地解决深度神经网络在学习过程中存在的梯度爆炸、梯度消失等问题,使训练过程中深达数百甚至数千层的网络成为可能,并且性能优异.ResNet18网络基本架构是ResNet,网络深度为18层,其核心是重复的残差块.注意力机制允许模型有效地聚焦于图像的关键细节区域,从而凸显有用的特征并抑制无用的特征,通过添加注意力可以增强纹理、边缘等信息权重.SENet(squeeze-and-excitation network)是一种首次引入有效注意力机制的模型,通过可学习通道注意力显著提高了特征的表示能力.但是SE块与CNN相结合的方法比较复杂,并且降维会对预测产生负面影响.因此,为了更好地提升网络识别的准确率并简化网络,本文采用在SENet基础上进行改进的ECA-Net.此结构是一种轻量化的注意力机制模块,它采用一种不降低维度的局部跨通道交互策略.

综上,本文提出的人脸检测算法采用在ResNet18瓶颈结构中嵌入ECA有效通道注意力机制形成Bottleneck_ECA模块,如图1(b)所示,使模型更有效地聚焦于人脸图像的关键细节区域,凸显有用特征并抑制无用特征,增强纹理、边缘等信息权重,进而有效提高模型的性能.这一改进不仅使得模型更加轻量化,同时也通过引入通道注意力机制增强了模型对于关键特征的提取能力,显著提升了模型的性能.

ECA注意力模型结构如图2所示.ECA模块通过一维卷积(核大小为k)实现跨通道信息交互,从而高效学习通道注意力权重.将k用于一维卷积中,得到特征图每个通道权重,然后以Sigmoid激活函数为基础,通过通道间的相关性得到各个通道的注意力值,作用在输入的特征图上,实现对特征通道的重标定,如式(1)所示:

ω=σC1Dky (1)

式中:ω表示通道注意力权重;y表示经过GAP压缩后的通道描述向量;C1D代表一维卷积.一维卷积核k的大小可以通过式(2)获得:

k=ψC=logCγ+bγodd (2)

式中: C表示维数,γb设置为2和1,用于动态调节C与卷积核大小k之间的比例关系;odd表示向上取最近的奇数.

fig

图2  ECA网络结构

Fig.2  ECA network architecture

1.3 GBlock模块

每个GBlock包含一个卷积层用来对齐不同层次的特征维度,在每个自相关矩阵块后的每个池化层后添加一个Gabor滤波器模块来提取纹理特征,然后通过添加一个Conv-BN-ReLU层来细化表示,并将输出传输至下一层,具体框架如图1(c)所示.通过计算自相关矩阵可以捕捉输入特征图的全局统计特性,在池化层之后,使用Gabor滤波器对下采样后的特征图进行处理,这两种方法互补使用确保了纹理特征的全局和局部信息能够被充分提取和保留,提供了最优的纹理特征表示.

1.3.1 Gabor滤波器

Gabor滤波器的本

17是在短时傅里叶变换中引入高斯核函数作为窗函数,通过窗函数对信号进行时频分析,具有良好的局部化特性.Gabor 滤波器在图像处理方面具有极其重要的用途,可以提取不同方向和不同尺度的特征;在二维空间中,由一个高斯核函数与正弦平面波相乘得到,可以在给定区域提取频域特征,如式(3)所示:

G(x,y;λ,θ,ψ,σ,γ)=
exp-x'2+γ2y'22σ2×expi2πx'λ+ψ (3)
x'=xcosθ+ysinθ (4)
y'=-xsinθ+ycosθ (5)

式中:x,y表示图像像素点的坐标;λ表示波长,控制Gabor核函数条纹的宽度;ψ表示相位偏差;σ为高斯包络线的标准差,决定滤波器的尺度;γ为空间纵横比;θ为滤波方向,控制Gabor核函数条纹的倾斜角度.

1.3.2 自相关矩阵

图1(a)所示,在输入图像和每个下采样层之前将整个GBlock模块添加到ResNet结构中,以整合自相关函数,从而在不同的语义层次上合并图像纹理信息.每个模块包括一个卷积层,用于对齐不同层次的特征维度.自相关矩阵计算层用于提取图像纹理特征,两个Conv-BN-ReLU层用于细化表示,最后全局池化层用于将自相关特征与ResNet主干对齐.自相关矩阵的计算方法如式(6)所示:

R(u,v)=1Nx=1Ny=1NI(x,y)-μ×
                  I(x+u,y+v)-μ (6)

式中:R(u,v)是自相关矩阵的元素;I(x,y)是块内像素的值;μ是块内像素的平均值;N是图像块内像素的总数.

自相关矩阵计算层通过计算特征图之间的内积,衡量不同通道的特征之间的相似性和相关性.通过将特征图展平并计算其自相关矩阵,提取全局统计特征,反映图像块的整体纹理结构,能够有效地用于纹理分析等任务.

1.4 损失函数

人脸伪造检测的本质是一个二分类任务,为了更好地学习本文提出的模型框架,采用交叉熵损失函数对模型进行约束和优化,它衡量了两个概率分布之间的差异性,通常用于衡量模型输出的概率分布与实际标签的分布之间的差异.损失函数表达式如式(7)所示:

L=-[ylogp+(1-y)log(1-p)] (7)

式中:p表示预测概率;y表示真实标签;0表示负样本;1表示正样本.

交叉熵损失函数可以衡量模型的预测准确性,可以让模型更快地收敛,而且可以在线更新,不需要重新训练模型.

2 实验及结论

本节通过对比实验验证本文提出的方法的有效性,实验部分按照数据集、评估指标、实验结果与分析来展开说明.

2.1 数据准备与参数设置

本文使用的数据集包括20 000张人脸图像,其中真实人脸10 000张,伪造人脸10 000张.真脸数据集来自CelebA人脸数据

18,处理方式是对数据集中的图像进行关键点对齐处理,然后利用裁剪方式得到128×128的规范人脸图像.而伪造人脸来自由ProGAN19和DCGAN20生成的假人脸,并将数据集按照6∶2∶2的比例分为训练集、测试集和验证集.使用Adam优化器,学习率设置为0.001,批量大小设置为16,网络架构模型在Pytorch框架上实现.

2.2 数据增强

深度学习神经网络的性能会随着训练数据的增加而提高,而数据增强是一种基于现有训练数据人为创建新的训练数据的工具.通过对原始数据进行变换和扩充,从而使模型能够更全面地学习特征,数据增强的主要目的是提高模型的泛化能力,使其在未见过的数据上表现更为出色.变换包括各种图像处理操作,如缩放、裁剪、翻转等.引入更多的变化和噪声,有助于缓解模型对训练数据的过拟合程度,使得模型更具有鲁棒性,能够更好地适应不同视角、光照等环境变化.本文通过对输入图像进行数据增强提高模型的鲁棒性.通过模拟多样性和复杂性,数据增强使模型具有更强适应性,从而提高其在多种实际应用场景的性能.一些增强的例子如图3所示.

fig

(a) 剪切

(b) 模糊

  

fig

(c) 亮度

(d) 旋转

  

图3  数据增强:剪切、模糊、亮度和旋转

Fig.3  Augmentation: cutout, blur, brightness and rotation

2.3 评估指标

本文主要考虑使用准确率(ACC)作为评价指标,它是人脸伪造检测中最直观的指标,其计算如 式(8)所示:

ACC=TTP+TTNTTP+FFP+TTN+FFN (8)

式中: TTP表示真实人脸被预测为真实的个数;TTN表示伪造人脸被预测为虚假的个数;FFP表示伪造人脸被预测为真实的个数;FFN表示真实人脸被预测为虚假的个数.

2.4 实验结果与分析

检测人脸真假的主流算法都基于卷积神经网络.本文实验方法对比了三个检测模型网络,分别是ResNet18、Gram-Net以及RECCE模型.各模型在以下设置中进行评估:1)原始输入图像大小,2)颜色增强,3)高斯模糊.此外还可以通过添加剪切、亮度等来编辑虚假与真实图像,实验结果如表1所示.

表1  各模型准确率对比
Tab.1  ACC comparison of each model ( % )
方法OriginalColorBlurCutoutBrightnessEqualize
ResNet1821 96.51 86.54 94.87 97.56 63.67 91.71
Gram-Net15 98.72 84.75 95.55 97.71 69.89 91.34
RECCE22 97.68 91.36 96.37 97.47 71.04 92.57
本文方法 98.84 93.40 97.01 97.43 71.32 93.91

表1给出了本文所提出的模型和ResNet18、Gram-Net以及RECCE模型的比较结果.由实验结论可知,对于不同的增强方法,这四种模型在准确率方面表现出了不同的性能.总体而言,表1中提到的三种方法与本文提出的模型方法的性能相当,但是对于某些特定的图像增强方法,本文提出的模型的性能更好一点.当测试图像被高斯模糊时,相对于ResNet18、Gram-Net和RECCE,本文提出的方法准确率分别提高了2.14个百分点、1.46个百分点和0.64个百分点;当进行亮度调整时,准确率分别提高了7.65个百分点、1.43个百分点和0.28个百分点.对于其他一些数据增强方法,本文方法也有一些改进,例如颜色增强和均衡化,实验结果证明,本文提出的结构是一种鲁棒的人脸伪造检测方法.

图4更直观地表示出本文所提算法与其他几种算法的结果对比:可以看出,对于不同的增强方法,本文提出的方法的检测准确率有明显提高,模型性能也有所提高.

fig

图4  检测准确率对比

Fig.4  Comparison of detection accuracy

2.5 不同注意力模块的影响

为了验证注意力模块对本文提出的网络的影响,将CBAM(convolution block attention module)、SE和ECA三种注意力机制模块分别插入主干网络ResNet18中,对于原始输入图像进行检测,实验结果如表2所示.

表2  不同注意力机制的实验结果
Tab.2  Results of different attention mechanisms
注意力机制ACC/%
CBAM 93.75
SE 94.34
ECA 96.19

表2可知,采用ECA注意力模块取得了最好的结果,准确率可达96.19%,相较于CBAM,准确率提高了2.44个百分点;相较于SE注意力模块,准确率提高了1.85个百分点.这是由于ECA是一种轻量化的注意力机制模块,通过不降低维度的局部跨通道交互策略,在降低网络模型计算复杂度时也提高了模型效果,因此本文采用ECA注意力机制.

2.6 消融实验

本文提出的改进模型主要有如下三个改进.

1)M1:在ResNet18模型上添加有效通道注意力ECA;

2)M2:增加Gabor滤波器;

3)M3:加入自相关矩阵模块.

为了显示三个改进的效果,本文进行了三个消融实验.实验结果如表3所示.

表3  三种改进的消融实验
Tab.3  Three modified ablation experiments ( % )
方法OriginalColorBlurCutoutBrightnessEqualize
M1 96.79 87.24 95.87 96.43 64.54 92.23
M2 96.87 87.75 96.11 96.89 66.78 93.14
M1+M2 97.99 89.21 96.88 97.12 69.75 93.78
M1+M2+M3 98.84 93.40 97.01 97.43 71.32 93.91

表3展示了在三种不同的改进模型中进行的消融实验的结果,通过比较模型在不同数据增强方法下的性能变化,可以得出以下结论:在ResNet 18残差网络中引入ECA注意力机制显著提高了性能,表明其对模型鲁棒性的改善效果显著.引入Gabor滤波器在模糊和亮度的增强方法下表现尤为出色.加入自相关矩阵模块在剪切等方法下实现了显著的性能提升.综合三个改进的模型(M1+M2+M3),在大多数情况下实现了最佳性能,为图像处理任务提供了有效的性能提升途径.

3 结 论

针对伪造人脸获取的纹理特征与真实人脸存在差异,本研究提出了一种新的基于注意力机制和GBlock模块的模型方法.实验结果表明,该网络能够有效地捕捉和利用真实人脸与伪造人脸之间的纹理差异,并且对人脸伪造检测方面具有较强的鲁棒性,为欺诈手段提供了一种有效的解决方案.但是仍有一些问题需要进一步改进:现有方法泛化能力较弱,仅对单一数据集有效,检测新数据集时准确率下降,未来需提升模型泛化性和鲁棒性.同时,AI技术的发展使虚假图片在网络上泛滥,带来舆论影响和检测挑战.除了应对伪造人脸问题,还需考虑司法立法、舆论引导和伦理关系的协同作用.

参考文献

1

杨睿胡心如黄卓超. 深度网络生成式伪造人脸检测方法研究综述[J]. 计算机辅助设计与图形学学报20243610): 1491-1510. [百度学术] 

YANG RHU X RHUANG Z Cet al. A review of deep network generative counterfeit face detection methods [J]. Journal of Computer-Aided Design & Computer Graphics20243610): 1491-1510.(in Chinese) [百度学术] 

2

翁泽佳陈静静姜育刚基于域对抗学习的可泛化虚假人脸检测方法研究[J].计算机研究与发展2021587):1476-1489 [百度学术] 

WENG Z JCHEN J JJIANG Y G. On the generalization of face forgery detection with domain adversarial learning[J]. Journal of Computer-Research & Computer Development2021587): 1476-1489(in Chinese) [百度学术] 

3

吴畏朱剑宇张延具有隐私保护特性的深度伪造人脸检测模型[J].计算机辅助设计与图形学学报20233510):1510-1520 [百度学术] 

WU WZHU J YZHANG Yet al. A deepfake face image detection model supporting privacy protection[J]. Journal of Computer-Aided Design & Computer Graphics20233510):1510-1520(in Chinese) [百度学术] 

4

孙书魁范菁曲金帅生成式对抗网络研究综述[J].计算机工程与应用20225818):90-103 [百度学术] 

SUN S KFAN JQU J Set al. Survey of generative adversarial networks[J]. Computer Engineering and Applications20225818): 90-103(in Chinese) [百度学术] 

5

ALBEN RICHARDS MKAAVIYA VARSHINI EDIVIYA Net al. Deep fake face detection using convolutional neural networks[C]//2023 12th International Conference on Advanced Computing (ICoAC). ChennaiIndia. IEEE20231-5 [百度学术] 

6

GUO Z QYANG G BCHEN J Yet al. Fake face detection via adaptive manipulation traces extraction network[J]. Computer Vision and Image Understanding2021204103170 [百度学术] 

7

SAAD ELDIEN N AESSAM ALI RALI MOUSSA FReal and fake face detection:a comprehensive evaluation of machine learning and deep learning techniques for improved performance[C]//2023 Intelligent Methods,Systems,and Applications (IMSA). GizaEgypt.IEEE2023315-320 [百度学术] 

8

KIM ECHO SExposing fake faces through deep neural networks combining content and trace feature extractors[J]. IEEE Access20219123493-123503 [百度学术] 

9

HSU C CZHUANG Y XLEE C Y. Deep fake image detection based on pairwise learning[J]. Applied Sciences2020101): 370 [百度学术] 

10

QIAN Y YYIN G JSHENG Let al. Thinking in frequency:face forgery detection by mining frequency-aware clues[M]//Computer Vision-ECCV 2020. ChamSpringer International Publishing202086-103 [百度学术] 

11

WANG S YWANG OZHANG Ret alCNN-generated images are surprisingly easy to spot… for now[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WAUSA. IEEE20208695-8704 [百度学术] 

12

ZHAO H QWEI T YZHOU W Bet alMulti-attentional deepfake detection[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)Nashville,TNUSA.IEEE20212185-2194 [百度学术] 

13

张军于淼淼杨佳鑫结合多视角学习与一致性表征的人脸伪造检测[J].国防科技大学学报2023454): 28-36 [百度学术] 

ZHANG JYU M MYANG J X. Combining multi-view learning and consistent representation for face forgery detection[J]. Journal of National University of Defense Technology2023454): 28-36(in Chinese) [百度学术] 

14

BONETTINI NCANNAS E DMANDELLI Set al. Video face manipulation detection through ensemble of CNNs[C]//2020 25th International Conference on Pattern Recognition (ICPR). Milan,Italy.IEEE20215012-5019 [百度学术] 

15

LIU Z ZQI X JTORR P H SGlobal texture enhancement for fake face detection in the wild[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle,WAUSA. IEEE20208060-8069 [百度学术] 

16

LI L ZBAO J MZHANG Tet al. Face X-ray for more general face forgery detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WAUSA. IEEE20205001-5009 [百度学术] 

17

SHAIK ARAJ M N V V S SSUPRIYA Aet alEnhanced texture analysis to detect fabric stain using deep learning and Gabor filter[C]//2023 5th International Conference on Inventive Research in Computing Applications (ICIRCA). CoimbatoreIndia. IEEE2023161-166 [百度学术] 

18

LIU Z WLUO PWANG X Get al. Deep learning face attributes in the wild[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago,Chile. IEEE20153730-3738 [百度学术] 

19

KARRAS TAILA T MLAINE Set alProgressive growing of GANs for improved quality,stability,and variation[EB/OL]. (2018-02-06)[2024-05-09].https://arxiv.org/abs/1710.10196v3 [百度学术] 

20

RADFORD AMETZ LCHINTALA Set alUnsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. (2016-01-07)[2024-05-09].https://arxiv.org/abs/1511.06434v2 [百度学术] 

21

HE K MZHANG X YREN S Qet al. Deep residual learning for image recognition[C]//2016 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas,NV,USA.IEEE2016770-778 [百度学术] 

22

CAO J YMA CYAO T Pet al. End-to-end reconstruction-classification learning for face forgery detection[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA. IEEE20224103-4112 [百度学术] 

作者稿件一经被我刊录用,如无特别声明,即视作同意授予我刊论文整体的全部复制传播的权利,包括但不限于复制权、发行权、信息网络传播权、广播权、表演权、翻译权、汇编权、改编权等著作使用权转让给我刊,我刊有权根据工作需要,允许合作的数据库、新媒体平台及其他数字平台进行数字传播和国际传播等。特此声明。
关闭