摘要
恶意攻击者可以通过在自然样本中添加人类无法察觉的对抗噪声轻易地欺骗神经网络, 从而导致分类错误. 为了增强模型对抗扰动的鲁棒性, 先前的研究大多关注单模态任务, 对多模态场景的研究相对匮乏. 为了提升多模态RGB-骨骼动作识别的鲁棒性, 提出了一个基于特征交互模块(FIM)的鲁棒动作识别框架, 提取对抗样本的全局信息并学习模态间的联合表征, 以此来校准多模态特征. 实验结果表明, 面对CW攻击, 该动作识别框架在NTURGB+D数据集上进行鲁棒性评估, 其RI值达到25.14%, 平均鲁棒准确率也达到48.99%, 比最新的MinSim+ExFMem方法分别提高了8.55和23.79个百分点, 表明其在增强鲁棒性及平衡准确率方面都优于其他方法.
关键词
深度神经网络(DNN)在视觉任务如分
为此,学界探索了对抗攻击策
随着人工智能的发展,多模态技术在视觉-语言导
本文将鲁棒性研究扩展至多模态, 重点探索RGB-骨骼动作识
文献[
本文深入分析了两种模态数据的鲁棒性. 尽管RGB视频丰富的视觉信息(颜色、背景等)有助于动作识别, 但其对环境变化和对抗攻击的敏感性也增加了模型的脆弱性.相比之下, Yan等
基于以上分析, 本文提出了基于特征交互模块(feature interaction module, FIM)的增强RGB-骨骼动作识别方法. FIM通过全局平均池化层提取两个模态对抗样本的全局信息, 生成包含这些信息的联合表征, 以此产生多模态激活信号并重新校准各模态的特征. 此外, 本文还设计了一种新型适配损失函数, 以适应本文的方法并训练出一个鲁棒性更强的RGB-骨骼动作识别模型.
本文贡献包括:
1)创新地提出FIM,通过通道维度的特征校准与多模态对抗训练结合,提升模型鲁棒性.
2)设计新的损失函数,融合多个预测结果, 优化训练.
3)在主流数据集上进行实验,实验结果表明, 在不增加任何存储开销的情况下, 本文提出的方法能显著提升RGB-骨骼动作识别鲁棒性, 平衡模态间差异.
1 概述
1.1 标准训练
给定一个标准的训练数据集, 其具有个样本, 个类别, 其中为自然样本(没有加入对抗扰动的干净的样本), 为对应的真实标签. 标准训练通过最小化训练数据集上的经验风险来获得良好的分类性能, 如
(1) |
式中, 为分类任务中广泛使用的交叉熵损失函数;是由参数化的神经网络;是的参数空间.
标准训练中, 通过减少预测结果与的交叉熵损失, 逐步优化网络模型参数直至收敛. 然而, 此方法未考虑对抗样本, 导致模型面对难以察觉扰动的对抗性样本时表现不佳.

图1 标准训练与对抗训练的决策边界的概念图
Fig.1 Conceptual illustration of standard vs. adversarial decision boundaries
(a) (b) (c)
标准训练产生的简单决策边界只能正确分类自然样本. 由于对抗样本通常位于自然样本的“范数球”内, 标准训练得到的模型无法正确分类这些对抗样本, 需要更复杂的决策边界来应对.
1.2 对抗训练(AT)
为了解决此问题, Madry
(2) |
(3) |
其中:
(4) |
式中,是对抗样本的采样空间, 它在自然样本的范数邻近空间中有界,即 , 其为半径,圆心为的闭球. 为对抗性扰动,本文只考虑.
最小-最大公式将对抗鲁棒网络优化分为两步:首先最大化对抗样本损失以生成攻击性较强的样本, 然后最小化这些样本在网络参数下的损失.
对抗训练包括将对抗样本加入训练集,改变模型的决策边界,使其能正确识别这些样本.如
为了生成对抗样本, 对抗训练通常采用快速梯度符号
(5) |
式中:,为自然样本;是相应的对抗样本;对抗扰动为, 它的维度大小和输入相同; 是真实标签;,为超参数, 表示梯度的步长; 为符号函数.
PGD是FGSM的迭代版本, 与仅执行一次迭代的FGSM不同, PGD进行多次迭代, 每次迭代都进行小幅更新, 并将扰动限制在规定范围内. 给定起始点, 步长, PGD的工作原理如下:
(6) |
持续迭代,直到满足某一停止准则, 例如固定的迭代次数K, 即PGD-K算
1.3 多模态对抗训练
设为输入视频帧, 为输入骨骼数据, 为多模态输入对应的真值标签. 由于存在多个输入, 可以将攻击分为两类:只生成RGB视频对抗样本或骨骼对抗样本的单模态攻击, 以及同时生成RGB视频和骨骼对抗样本的RGB-骨骼多模态攻击. 对抗训练最小-最大公式可以推广到多模态数据:
(7) |
其中:
(8) |
式中,,. 视频对抗扰动和骨骼对抗扰动分别是:, . 对于单模态攻击, 或的值为0. 同理, 可以将
(9) |
2 方法描述
2.1 特征交互模块(FIM)
根据分析, 骨骼模态通常比RGB模态鲁棒性更强. 因此, 本文提出特征交互模块(FIM)使模型能显式地建立模态特征间的鲁棒性关系,强调鲁棒性较强的特征, 同时抑制较弱的特征.
FIM的结构如

图2 FIM的结构
Fig.2 The architecture of FIM
本文从视频和骨骼模态的隐藏层提取特征, 分别表示为和, 其中和为相应的输出通道数, 和是视频和骨骼序列的帧数. 是视频的空间维度. 为骨骼数据每帧的关键点数. 由于特征的维度较多, 且本文重点关注的是通道维度的变化. 为了更好地可视化结构图, 本文将RGB的时空维度和骨骼的时空维度都表示在了同一个轴上, 将和通道维度单独表示为一个轴. FIM接受两个模态的对抗样本的特征作为输入, 从中学习全局的多模态嵌入, 并使用该嵌入重新校准RGB视频和骨骼的输入特征. 通过下面两个主要步骤, 完成模态的重新校准.
1)压缩(squeeze)并求均值:为弥补卷积层输出特征中因感受野大小限制而缺乏的全局上下文信息, 本文通过对输入特征进行压缩并求均值, 将全局时空信息压缩到通道描述符中:
(10) |
其中:
(11) |
的功能是产生通道相关特征响应的全局分布的嵌入, 允许来自网络的全局感受野的信息被其所有层使用. 同时, 压缩操作可以实现具有任意时空维度特征的模态之间的融合.
2)多模态激活:这一步旨在生成两个模态各自的激活门控信号, 对每个模态应用不同的校准权重.
首先, 将沿着各自的通道维度拼接在一起得到, 它结合了两个模态特征的全局信息, 可以进行辅助分类. 本文将输入一个全连接层中, 再经过Softmax操作, 公式如下所示:
Softmax | (12) |
式中:,是全连接层的权重;,是全连接层的偏置;联合表征, 为类别数. 本文将输出的联合表征的大小控制为类别数, 因此也可以将它看作中间特征的辅助预测结果, 在损失函数中使用这个结果.
然后通过两个独立的全连接层生成每个模态的激活控制信号:
(13) |
式中:,是全连接层的权重;,是对应的偏置.
最后, 将经过sigmoid激活函数, 再对输入的多模态特征进行重新校准:
(14) |
式中:表示sigmoid函数, 它将激活信号的值缩放到之间;表示在通道维度上相乘, 允许在每个分支中抑制或激励不同的特征通道.
通过联合表征, FIM使用多模态对抗样本的全局信息来重新校准特征. 同时受到攻击时, 如果RGB模态较弱而骨骼模态较强, FIM进行跨模态重新校准.
2.2 基于FIM的RGB-骨骼动作识别网络
本文的整体框架如

图3 框架的结构
Fig.3 The structure of the framework
网络深层处的FIM单元连接两个网络, 并且负责处理高级语义特征. FIM的数量可以根据需要增减, 位置如
2.3 损失函数和训练流程
FIM与骨干网络一起进行对抗训练. 本文设计了一个新的损失函数. 以插入网络个FIM为例, 损失函数可定义为:
(15) |
式中:是对抗样本最终预测输出;为多模态输入对应的真值标签;是交叉熵损失函数; 作为超参数,用于平衡两项损失.
首先,使用PGD攻击在自然样本上生成对抗样本[参见
3 实验与分析
3.1 数据集
NTURGB+
iMiGU
3.2 实验设置
训练设置:对于NTURGB+D数据集采用三个FIM, 对于iMiGUE数据集, 只用一个FIM. 使用SGD优化器(动量为0.9, batch size大小为16), 在iMiGUE上训练40个epoch, 在NTURGB+D上训练80个epoch, 权重衰减为, 初始学习率为0.01, 采用余弦退火率策略调整学习率.
测试设置:本文报告了在自然样本上的干净准确率和在对抗样本上的准确率, 使用两种流行的攻击方法:PGD2
所有实验均在两个NVIDIA GeForce RTX 3090 GPU上运行. 环境为Python 3.8.8和Pytorch 1.10.0.
3.3 鲁棒性评估
为验证FIM的有效性, 本文将其与baseline和最先进的(SOTA)方法进行了比较. 所比较的SOTA方法也基于多模态防御, 而非单模态.
符号定义:√表示使用干净的自然样本;×表示使用算法产生的对抗样本;AT with×R/×S/×RS分别表示使用RGB、骨骼或二者结合的对抗样本进行的对抗训练防御策略;None表示不使用任何防御方法.
评估标准:本文遵循文献[
(16) |
为了综合评估不同方法的干净准确率和鲁棒性, Tian
(17) |
式中同时考虑了干净准确率和对抗样本的结果.代表一种防御方法; n代表baseline, 即本文实验中的None. 如果一个防御方法降低干净数据的性能, RI将相应地惩罚它.
3.4 结果分析
防御策略 | √RS | ×R | S | RS | Avg | RI |
---|---|---|---|---|---|---|
None | 62.37 | 0.13 | 6.67 | 0.02 | 2.27 | 0 |
AT with R | 47.32 | 47.32 | 0.00 | 0.00 | 15.77 | -1.55 |
AT with S | 60.20 | 0.00 | 59.79 | 0.00 | 19.93 | 15.49 |
AT with RS | 39.01 | 39.01 | 30.94 | 30.97 | 33.64 | 8.01 |
MinSim | 60.60 | 0.00 | 53.74 | 0.02 | 17.92 | 13.88 |
ExFMem | 60.53 | 0.00 | 45.19 | 0.00 | 15.06 | 10.95 |
MinSim+ExFMem | 60.62 | 0.00 | 54.72 | 0.00 | 18.24 | 14.20 |
FIM(Ours) | 40.30 | 40.30 | 37.98 | 38.00 | 38.76 | 14.42 |
防御策略 | √RS | R | S | RS | Avg | RI |
---|---|---|---|---|---|---|
None | 88.09 | 0.98 | 9.00 | 0.00 | 3.33 | 0 |
AT with R | 75.59 | 75.59 | 2.80 | 2.89 | 27.09 | 11.26 |
AT with S | 78.44 | 1.41 | 78.31 | 1.41 | 27.04 | 14.06 |
AT with RS | 61.42 | 61.41 | 38.74 | 38.82 | 46.32 | 16.32 |
MinSim | 80.85 | 0.50 | 80.84 | 0.48 | 27.27 | 16.70 |
ExFMem | 84.19 | 0.00 | 60.98 | 0.00 | 20.33 | 13.10 |
MinSim+ExFMem | 82.81 | 0.00 | 75.60 | 0.00 | 25.20 | 16.59 |
FIM(Ours) | 67.57 | 67.57 | 39.71 | 39.70 | 48.99 | 25.14 |
MinSim等方法虽可提升单一模态鲁棒性, 但在另一模态上效果不佳, 而FIM兼顾了所有模态的鲁棒性. 例如, MinSim在NTURGB+D数据集上的S达到了80.84%, 但在R和RS上仅为0.50%和0.48%.
多数防御策略会降低干净准确率√RS, 因此无防御方法时干净准确率最高, 这符合对抗防御理论.防御的目标是在保持干净准确率的同时提高鲁棒性.引入防御策略通常不可避免导致干净准确率下降,因此引入了RI值来综合评估干净准确率和鲁棒性.FIM的√RS相比于MinSim等方法有所下降, 但鲁棒性有所提高.FIM的RI值都是最高或者接近最高,表明本文的FIM做到了干净准确率和鲁棒性的平衡,例如FIM在NTURGB+D上的RI达到25.14%,比MinSim+ExFMem方法的16.59%提高了8.55个百分点.
总之, 大量实验结果证明了FIM在提升模型鲁棒性、平衡不同模态鲁棒性以及兼顾干净准确率和鲁棒性方面优于其他方法.
3.5 消融实验
3.5.1 FIM的数量
本文的FIM方法是基于AT的. 为了评估FIM的有效性及其数量对网络性能的影响, 本文进行了消融实验. AT with ×RS代表只使用对抗训练而不加入FIM, 即0个FIM. 从两个分支网络的最后一个全连接层前开始, 即以FIM3为起始, 向前插入1~3个FIM. 在这里使用PGD20攻击进行测试, 其他设置与3.2节一致. 实验结果如
FIM数量 | √RS | ×R | ×S | ×RS | Avg | RI |
---|---|---|---|---|---|---|
None | 62.37 | 0.11 | 6.97 | 0.07 | 2.38 | 0 |
0 FIM | 39.01 | 39.01 | 31.89 | 31.95 | 34.28 | 8.54 |
1 FIM | 40.30 | 40.30 | 37.85 | 37.83 | 38.66 | 14.21 |
2 FIM | 39.95 | 39.95 | 36.51 | 36.53 | 37.66 | 12.86 |
3 FIM | 39.95 | 39.95 | 37.21 | 37.19 | 38.12 | 13.32 |
FIM数量 | √RS | ×R | ×S | ×RS | Avg | RI |
---|---|---|---|---|---|---|
None | 88.09 | 2.09 | 11.84 | 0.15 | 4.69 | 0 |
0 FIM | 61.42 | 61.41 | 40.41 | 40.32 | 47.38 | 16.02 |
1 FIM | 66.86 | 66.86 | 40.45 | 40.45 | 49.25 | 23.33 |
2 FIM | 64.06 | 64.06 | 38.92 | 38.95 | 47.31 | 18.59 |
3 FIM | 67.57 | 67.57 | 40.14 | 40.00 | 49.24 | 24.03 |
在iMiGUE数据集上,1个FIM表现最佳,几乎所有指标均为最高,如RI比次优值高出0.89个百分点.在NTURGB+D数据集上,3个FIM的综合性能更优,RI值高出次优值0.70个百分点.
这一差异可能因为NTURGB+D数据集规模(57k样本)大于iMiGUE(18k样本)而导致.因此,对于大型数据集, 更多FIM能带来更佳性能.总的来说,使用FIM的性能显著优于不使用FIM的情况.
3.5.2 超参数
在这一节中, 本文专注于评估提出的新损失函数——即
在这里, 控制了辅助预测损失在损失函数中的比例. 实验结果如
√RS | ×R | ×S | ×RS | Avg | RI | |
---|---|---|---|---|---|---|
None | 62.37 | 0.11 | 6.97 | 0.07 | 2.38 | 0 |
0.1 | 40.81 | 40.81 | 35.90 | 35.94 | 37.55 | 13.61 |
0.5 | 40.39 | 40.39 | 37.30 | 37.30 | 38.33 | 13.97 |
1 | 40.30 | 40.30 | 37.85 | 37.83 | 38.66 | 14.21 |
2 | 40.50 | 40.50 | 38.29 | 38.26 | 39.02 | 14.77 |
5 | 40.43 | 40.43 | 38.18 | 38.18 | 38.93 | 14.61 |
3.5.3 特征损失
在FIM中, 首先将两个对抗样本的特征进行压缩并求均值, 从而将时空特征压缩到通道维度. 这种做法虽常见,但可能导致某些特征信息的丢失(仅限于这一步骤, 最终的校准特征未受影响). 文献[
与FIM表示的方法相比,对比方法在FIM第一步中不进行特征压缩和求均值,而是通过特征拉伸保留时空信息(用FIM*表示).在iMiGUE数据集上, 本文使用单个FIM进行测试,超参数, 使用PGD20攻击.如
对比方法 | √RS | ×R | ×S | ×RS | Avg | RI |
---|---|---|---|---|---|---|
None | 62.37 | 0.11 | 6.97 | 0.07 | 2.38 | 0 |
FIM | 40.30 | 40.30 | 37.85 | 37.83 | 38.66 | 14.21 |
FIM* | 41.22 | 41.22 | 37.72 | 37.76 | 38.90 | 15.37 |
对比方法 | 参数量/1 |
---|---|
FIM | 47.42 |
FIM* | 80.91 |
总体来看,尽管特征拉伸保留了时空信息从而略微提升了性能,但同时导致了参数量的大幅增加和过拟合风险的提高.因此,原始的特征压缩并求均值方法在效率和性能平衡方面表现更佳.
4 结 论
尽管多模态技术发展迅速, 其鲁棒性研究却相对较少. 本文针对RGB-骨骼多模态动作识别模型在面临对抗攻击时性能缺乏鲁棒性的问题, 提出了基于特征交互模块(FIM)增强RGB-骨骼动作识别鲁棒性的方法. FIM通过全局平均池化提取两种模态对抗样本的全局信息,并学习联合表征,进而利用这些表征生成多模态激活信号,以重新校准各模态特征. 本文还创新性地设计了一个损失函数,用于训练更鲁棒的模型.在NTURGB+D和iMiGUE两个公开数据集上的广泛实验表明,本文的方法在提高模型鲁棒性、平衡各模态鲁棒性以及维持干净数据准确率方面, 相比其他多模态防御方法有显著优势.
参考文献
PAL N R, PAL S K. A review on image segmentation techniques[J].Pattern Recognition,1993,26(9):1277-1294. [百度学术]
REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30,2016,Las Vegas, NV, USA: IEEE, 2016:779-788. [百度学术]
GLASNER D,BAGON S,IRANI M.Super-resolution from a single image[C]//2009 IEEE 12th International Conference on Computer Vision.September 29-October 2,2009,Kyoto,Japan: IEEE,2009:349-356. [百度学术]
GOODFELLOW I J,SHLENS J,SZEGEDY C.Explaining and harnessing adversarial examples[J]. 3rd International Conference on Learning Representations,ICLR 2015-Conference Track Proceedings, 2015: 32-40. [百度学术]
WEI X X,ZHU J,YUAN S,et al.Sparse adversarial perturbations for videos[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33(1):8973-8980. [百度学术]
WANG H J,WANG G R,LI Y,et al.Transferable,controllable,and inconspicuous adversarial attacks on person re-identification with deep mis-ranking[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA:IEEE,2020:339-348. [百度学术]
LI L Y,MA R T,GUO Q P,et al.BERT-ATTACK:adversarial attack against BERT using BERT[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg,PA,USA:Association for Computational Linguistics, 2020: 6193-6202. [百度学术]
CHEN J Y,YUAN B D,TOMIZUKA M.Model-free deep reinforcement learning for urban autonomous driving[C]//2019 IEEE Intelligent Transportation Systems Conference (ITSC).October 27-30,2019,Auckland,New Zealand:IEEE,2019:2765-2771. [百度学术]
EYKHOLT K,EVTIMOV I,FERNANDES E,et al.Robust physical-world attacks on deep learning visual classification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018.Salt Lake City,UT,USA:IEEE,2018:1625-1634. [百度学术]
BUCH V H,AHMED I,MARUTHAPPU M. Artificial intelligence in medicine:current trends and future possibilities[J]. British Journal of General Practice,2018,68(668):143-144. [百度学术]
KONG B,WANG X,LI Z Y,et al.Cancer metastasis detection via spatially structured deep network[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2017:236-248. [百度学术]
MA X J,NIU Y H,GU L,et al.Understanding adversarial attacks on deep learning based medical image analysis systems[J].Pattern Recognition,2021,110:107332. [百度学术]
SZEGEDY C,ZAREMBA W,SUTSKEVER I,et al.Intriguing properties of neural networks[EB/OL]. 2013: 1312.6199.https://arxiv.org/abs/1312.6199v4 [百度学术]
CARLINI N,WAGNER D.Towards evaluating the robustness of neural networks[C]//2017 IEEE Symposium on Security and Privacy (SP).May 22-26,2017,San Jose,CA,USA.IEEE,2017:39-57. [百度学术]
MADRY A, MAKELOV A, SCHMIDT L, et al. Towards deep learning models resistant to adversarial attacks[C]// 6th International Conference on Learning Representations, ICLR 2018. April 30-May 3, 2018. Vancouver, BC, Canada:OpenReview.net, 2018. [百度学术]
MADAAN D, SHIN J, HWANG S J. Adversarial neural pruning with latent vulnerability suppression[C]//International Conference on Machine Learning, PMLR, 2021: 6575-6585. [百度学术]
LIN J, GAN C, HAN S. Defensive quantization: when efficiency meets robustness[C]// 7th International Conference on Learning Representations, ICLR 2019. May 6-9, 2019. New Orleans, LA, USA: OpenReview.net, 2019. [百度学术]
XIE C H,WU Y X,VAN DER MAATEN L,et al.Feature denoising for improving adversarial robustness[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA:IEEE,2019:501-509. [百度学术]
NASEER M,KHAN S,HAYAT M,et al.A self-supervised approach for adversarial robustness[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 13-19,2020,Seattle, WA, USA: IEEE, 2020: 259-268. [百度学术]
ZHANG J F,XU X L,HAN B,et al.Attacks which do not kill training make adversarial learning stronger[EB/OL].2020:2002.11242.https://arxiv.org/abs/2002.11242v2. [百度学术]
ZHANG J, ZHU J, NIU G, et al. Geometry-aware instance-reweighted adversarial training[EB/OL].2021:2010.01736. https://arxiv.org/abs/2010.01736. [百度学术]
LIU X, KUANG H, LIN X, et al. CAT: Collaborative adversarial training[EB/OL]. 2023:/2205.11156v1. https://arxiv.org/abs/2205.11156v1. [百度学术]
BAI Y, ZENG Y, JIANG Y, et al. Improving adversarial robustness via channel-wise activation suppressing[C]// 9th International Conference on Learning Representations, ICLR 2021. May 3-7, 2021. Virtual Event., Austria: OpenReview.net,2021. [百度学术]
PAPERNOT N,MCDANIEL P,WU X,et al.Distillation as a defense to adversarial perturbations against deep neural networks[C]//2016 IEEE Symposium on Security and Privacy (SP). May 22-26,2016,San Jose,CA,USA:IEEE,2016:582-597. [百度学术]
DAS N, SHANBHOGUE M, CHEN S T, et al. Compression to the rescue: defending from adversarial attacks across modalities[C]//ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2018. [百度学术]
WANG L, HE Z, TANG J, et al. A dual semantic-aware recurrent global-adaptive network for vision-and-language navigation[C]// Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence. August 19-25,2023.Macao: International Joint Conferences on Artificial Intelligence Organization, 2023: 1479-1487. [百度学术]
FU Z, MAO Z, SONG Y, et al. Learning semantic relationship among instances for image-text matching[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 17-24,2023,Vancouver,BC,Canada: IEEE,2023:15159-15168. [百度学术]
KHADER F, MUELLER-FRANZES G, WANG T, et al. Medical diagnosis with large scale multimodal transformers: leveraging diverse data for more accurate diagnosis [EB/OL].2022: 2212.09162.https: arxiv.org/abs/2212.09162. [百度学术]
MOON J H,LEE H,SHIN W,et al.Multi-modal understanding and generation for medical images and text via vision-language pre-training[J].IEEE Journal of Biomedical and Health Informatics,2022,26(12):6070-6080. [百度学术]
JAIMES A,SEBE N. Multimodal human-computer interaction:a survey[J]. Computer Vision and Image Understanding, 2007, 108(1/2): 116-134. [百度学术]
ILYAS A, SANTURKAR S, TSIPRAS D, et al. Adversarial examples are not bugs, they are features[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Dec,2020. ACM,2020: 125-136. [百度学术]
KINFU K A,VIDAL R.Analysis and extensions of adversarial training for video classification[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). June 19-20,2022,New Orleans,LA,USA.IEEE,2022:3415-3424. [百度学术]
ZHANG J M,YI Q,SANG J T.Towards adversarial attack on vision-language pre-training models[C]//Proceedings of the 30th ACM International Conference on Multimedia. Lisboa Portugal:ACM, 2022: 5005-5013. [百度学术]
ZHAO Y Q,PANG T Y,DU C,et al.On evaluating adversarial robustness of large vision-language models[EB/OL]. 2023:2305.16934.https://arxiv.org/abs/2305.16934v2. [百度学术]
DUAN H D,ZHAO Y,CHEN K,et al.Revisiting skeleton-based action recognition[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-24,2022,New Orleans, LA, USA: IEEE, 2022: 2959-2968. [百度学术]
YU B X B,LIU Y,ZHANG X,et al.MMNet:a model-based multimodal network for human action recognition in RGB-D videos[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(3):3522-3538. [百度学术]
VAEZI JOZE H R,SHABAN A,IUZZOLINO M L,et al.MMTM:multimodal transfer module for CNN fusion[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA: IEEE,2020:13286-13296. [百度学术]
TIAN Y P,XU C L.Can audio-visual integration strengthen robustness under multimodal attacks?[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 20-25,2021,Nashville,TN,USA: IEEE,2021:5597-5607. [百度学术]
YAN S J,XIONG Y J,LIN D H.Spatial temporal graph convolutional networks for skeleton-based action recognition[J].Proceedings of the AAAI Conference on Artificial Intelligence,2018,32(1):9-18. [百度学术]
CARREIRA J,ZISSERMAN A.Quo vadis,action recognition?A new model and the kinetics dataset[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA: IEEE, 2017: 4724-4733. [百度学术]
LI C,ZHONG Q Y,XIE D,et al.Co-occurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence.July 13-19,2018.Stockholm,Sweden.California:International Joint Conferences on Artificial Intelligence Organization,2018:786-792. [百度学术]
SHAHROUDY A,LIU J,NG T T,et al.NTU RGB D:a large scale dataset for 3D human activity analysis[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA: IEEE,2016:1010-1019. [百度学术]
LIU X,SHI H L,CHEN H Y,et al.iMiGUE:an identity-free video dataset for micro-gesture understanding and emotion analysis[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 20-25,2021,Nashville,TN,USA: IEEE, 2021: 10626-10637. [百度学术]
HU J,SHEN L,SUN G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA: IEEE,2018: 7132-7141. [百度学术]