电磁频谱人工智能模型的对抗安全威胁综述

2024-02-21 11:12张思成张建廷杨研蝶杨凇麟

无线电通信技术 2024年1期

张思成,张建廷,杨研蝶,杨凇麟,姜航,宣琦,林云*

(1.哈尔滨工程大学信息与通信工程,黑龙江哈尔滨 150001;2.中国人民解放军海军研究院,北京 100036;3.杭州市滨江区浙工大网络空间安全创新研究院,浙江杭州 310056;4.浙江工业大学信息工程学院,浙江杭州 310023)

0 引言

电磁频谱作为电磁空间的基本载体,是国家基础性、稀缺性战略资源,是支撑经济社会发展和维护国家安全的重要保障。电磁频谱资源在现代通信、导航、科学研究、国防等领域发挥着关键作用。在通信领域,无线电波频段支持了手机、广播电视等通信方式。在导航领域,全球卫星导航系统依赖于频谱来提供高精度的位置信息。科学研究利用电磁频谱来探测宇宙、分析物质、进行医学成像等。国防部门也使用电磁频谱进行雷达监测和通信[1]。

电磁频谱具有有限性、大数据、高动态、复杂性、易受干扰以及快速变化的特点,这决定了电磁频谱的管理与应用需要更加智能化,而以深度学习(Deep Learning,DL)为代表的人工智能(Artificial Intelligence,AI)技术在这些方面具有显著的优越性[2]。AI可以分析大量的数据,实时调整频谱资源的分配,以满足新需求,实现更智能、更有效的频谱管理,从而最大程度地减少资源浪费,提高频谱利用率。同时AI模型具有自适应性,可以根据不断变化的情况做出决策,增强电磁频谱系统的鲁棒性。这对于应对不断变化的干扰和威胁至关重要。

然而,随着AI在电磁频谱物理层中的广泛应用,对抗安全问题也逐渐浮现。在模型训练阶段,黑客(或攻击者)可以向训练数据加入毒化样本,导致模型无法在测试阶段正常使用或存在潜在的后门。在测试阶段,黑客可以向数据中加入不可觉察的轻微扰动,导致模型产生错误结果[3]。

中国工程院信息与电子学部、中国信息与电子工程科技发展战略研究中心在北京、香港同步发布《中国电子信息工程科技发展十四大技术挑战(2023)》,明确强调要促进电磁环境适应性、电磁安全前沿技术的广泛应用,提升智能化装备电磁安全能力是该领域面临的重要挑战[4]。为了促进AI技术在电磁频谱物理层的高效、安全、可信应用,推动相关理论与方法的发展,本文围绕电磁频谱物理层AI模型的对抗攻击方法对相关工作进行梳理。

1 训练阶段攻击

无论是AI算法还是早期机器学习算法,其良好的表现能力都源自于对已有数据集的拟合。数据集的质量在模型的训练过程中扮演着至关重要的角色,可以直接影响模型的性能和准确性。高质量数据集通常包括多样性、纯净性、无偏性和全面性等特点。简而言之,训练集应该包含充分的与模型实际测试环境独立同分布的数据与标注。训练数据对于模型性能的关键性导致其成为攻击者的攻击对象。攻击者可以通过对训练集加入难以察觉的精心构造的毒化扰动或后门触发,破坏模型的训练完整性。其中,使用毒化后的数据训练得到的模型无法正常用于测试环境的攻击称为数据投毒。模型能够在测试环境正常工作,却可以对带有后门触发的样本做出特别反应的攻击称为后门攻击。由于电磁空间的开放性,频谱监测场景中训练阶段的对抗攻击如图1所示。

图1 频谱监测场景中训练阶段的对抗攻击Fig.1 Adversarial attacks in the training phase of spectrum monitoring scenario

1.1 模型训练完整性攻击原理

1.1.1 特征分布倾斜

Shafahi等人[5]试图通过在特征空间中引发训练数据与目标测试图像的特征碰撞,来达到目标测试图像被错误分类的目的。该方法从基类中选取少量干净样本,并在特征空间将其向目标样本移动,使其融入到目标类别分布中,形成毒化样本。研究结果表明,毒化样本在干净数据训练的模型上会被误判为目标类别。然而,当模型同时训练干净样本和毒化样本时,特征空间的决策边界将发生变化,使毒化样本被错误识别为基类。由于目标样本靠近决策边界,这种变化还可能导致未受干扰的目标样本同样被错误划分为基类。

1.1.2 神经元激活

对后门攻击的作用机制研究主要集中在神经元激活方面。Gu等人[6]发现使用毒化数据重新训练DNN,可以创建包含后门的BadNets,其网络中存在特定的神经元用于识别后门的存在与否,这部分神经元当且仅当后门出现在图像中时才会被激活,而其他神经元的激活则不受后门攻击的影响。一旦后门被触发,模型便会输出错误的判断结果。Liu等人[7]在输入图像的特定位置设置触发器,建立触发器与选定神经元之间的稳固连接,并且通过重新训练模型,确保选定的神经元和表示错误目标的输出节点之间的因果联系,最终导致触发器输入模型后,模型的决策过程发生异常。

1.2 数据投毒

数据投毒攻击的概念最早源自于研究者们观察到机器学习模型的训练过程会受到异常样本的影响,近年来,数据投毒开始在电磁信号领域得到应用。根据是否修改目标标签,将数据投毒划分为标签翻转攻击和标签不变攻击两种类型。

1.2.1 标签翻转攻击

在标签翻转攻击中,攻击者故意篡改训练数据的标签,导致模型学习到错误映射关系,从而做出错误判决。Liu等人[8]将传统干扰方法与数据投毒相融合,使用嵌入式通信的概念设计一种新颖的干扰波形,并通过毒化数据插入和标签翻转的数据投毒攻击方法增强干扰能力,从而影响通信网络的传输和安全性能。

1.2.2 标签不变攻击

标签翻转攻击由于毒化样本标签与原标签之间的显著差异通常易于被发现,而标签不变攻击无需改变毒化样本的标签,只需要保证其在样本中的隐蔽性以及其特征与目标标签特征的一致性,因而更难被检测出来。2019年,Sagduyu等人[9]在发射机重训练阶段,发射基于优化方法生成的毒化信号,导致基于DL的分类器错误更新,相较于重训练之前性能不升反降。Wang等人[10]开发了一个针对联邦学习信号分类器的攻击框架。选择边缘设备在对抗干扰毒化后的本地数据集上训练局部模型,全局模型将对中毒和未中毒的模型参数进行聚合和分发,从而诱导对全局分类器的有效模型投毒攻击,研究结果表明随着数据投毒攻击更多的边缘设备的本地数据集,全局分类器的性能也会随之成比例下降。

1.3 后门攻击

尽管后门攻击在计算机视觉、物联网等领域已被广泛研究,但在信号领域的探索却相对较少。本节旨在对电磁信号领域的后门攻击方法进行系统性分类和总结,分别从对抗扰动攻击、良性特征攻击和特洛伊木马攻击三方面进行具体分类。

1.3.1 对抗扰动攻击

对抗扰动攻击是指利用对抗样本的思想,将微小扰动作为触发器植入后门,通常这种扰动在满足正则化的条件下难以被察觉。Huang等人[11]研究了后门攻击对基于DL的无线信号调制分类器的影响,通过对目标信号的I/Q序列添加随机扰动生成毒化数据,使得到的毒化数据在特征空间中与添加补丁后的原样本相似,进而导致经毒化数据训练后的接收机分类器对添加补丁的原样本分类准确率显著下降。Li等人[12]提出毒化少量训练数据的随机位置的振幅来为自动调制模型植入后门,并改变毒化数据的标签训练后门模型。测试阶段,中毒模型在保证干净样本正常分类的同时会被含有触发器的毒化样本误导做出错误输出。仿真结果表明该方法可以在仅毒化1%的训练集样本的情况下,实现96.7%的攻击成功率,同时不降低干净样本的识别准确率。另外,由于每个样本的触发位置都是随机选取的,该方法也进一步提高攻击的隐蔽性。Zhao等人[13]针对射频信号分类的两种应用：射频信号调制和射频设备指纹识别,设计了一种隐藏在动态输入I/Q频段中的隐形动态触发器。该攻击通过考虑射频信号I/Q分布的空间异构性和时间动态性,结合空间和时间两个维度生成一种隐形触发器,其适用于各种射频信号感知任务。根据不同目标调制信号的空间特征,生成分别服从两种独立多元高斯分布的连续二维扰动向量作为触发器,对于一段时间内采集的I/Q样本,设计连续触发、重复触发和随机触发三种时域触发模式,为了进一步提高特定射频信号分类应用的攻击性和隐蔽性,该研究还提出了一种面向应用的后门触发优化方法,同时优化后门模型对原始样本、毒化样本的分类损失以及两个样本之间的差异损失。在两个射频信号分类数据集上的大量实验表明,该方法不仅可以实现较高的攻击成功率,并且可以绕过现有的神经清洗、STRIP等后门攻击防御策略

1.3.2 良性特征攻击

与对抗扰动攻击不同,良性特征攻击利用正常样本中已有的特征作为触发器,并不引入新特征,可以规避基于触发器与正常特征差异的防御策略。魏楠等人[14]针对认知无线网络下基于深度强化学习模型的动态频谱接入场景,提出了一种非侵入、开销低的后门攻击方法。攻击者根据信道监听结果和触发器激活概率,从给定信道中指定若干信道,指定信道同时被占用时的信道状态被选定为触发器,随后将后门样本添加到次用户的深度强化学习模型训练池中。在测试阶段,攻击者主动发送信号激活模型中的触发器,使次用户做出目标动作,降低次用户的信道接入成功率。

1.3.3 特洛伊木马攻击

特洛伊木马攻击通过在模型中植入特定模式或特征,实现了仅在使用特定条件的触发下,才会激活模型的异常响应,提升了攻击的隐蔽性。Davaslioglu等人[15]提出了一种针对无线通信DL模型设计的木马攻击。以相移的方式将触发器嵌入到少量训练数据样本中,同时修改毒化数据的标签为目标标签,毒化后的训练数据被用于DL分类器的训练。在测试期间,接收机可以对没有触发器的干净信号准确分类,但是对于带有触发器的特定信号,这种攻击将会被触发器激活,导致信号分类器对信号的错误分类。研究发现,这种攻击在不同信道条件下均可实施,并且难以通过常规的预处理手段缓解。

1.4 攻击方法总结

面向电磁频谱AI模型的数据投毒和后门攻击总结如表1所示。

表1 面向电磁频谱AI模型的数据投毒和后门攻击总结Tab.1 Summary of data poisoning attacks and backdoor attacks on AI models for the electromagnetic spectrum

2 测试阶段攻击

模型训练完成后,其参数被固定并部署到测试环境或实际工作环境中。未受干扰的测试数据保持着与训练数据独立同分布的关系,会被模型很好地分类或预测。而如果攻击者向测试数据中加入精心设计的且难以觉察的微小扰动,则会使得模型以很高的置信度输出错误的预测结果,这种攻击方法称为对抗样本攻击,被扰动的数据称为对抗样本。Sadeghi等人[16]首先发现基于深度神经网络的调制信号识别模型同样容易受到对抗样本的攻击,并阐述了电磁空间开放性导致对抗攻击的可行性,引起了研究人员的广泛关注。在电磁空间中,攻击者通过在发射信号上添加对抗扰动,可以误导频谱监测设备的智能识别模型,将其错误识别为合法用户,进而达到掩盖非法信号的目的。具体攻击过程如图2所示。

图2 频谱监测场景中测试阶段的对抗攻击Fig.2 Adversarial attacks in the testing phase of spectrum monitoring scenario

2.1 测试阶段攻击原理

目前对于对抗样本攻击原理的解释众说纷纭,总体可以分为模型视角和数据视角两方面。

2.1.1 模型视角

2.1.1.1 线性假设

Goodfellow等人[17]在研究中指出,尽管卷积神经网络中包括很多非线性组件,但以任务损失为目标的训练优化过程会使得模型趋向线性化。这就意味着输入端的细微变化会引起中间表征差异通过网络逐层线性化放大,最终在分类层偏离原本类别。

2.1.1.2 决策边界倾斜假设

Tanay等人[18]认为,当分类边界靠近采样数的子流形时,存在对抗性样本,并在线性情况下对此进行数学分析。具体而言,正常情况下类别决策边界穿插于不同类别的数据子流形间,这样二者就可以很好地分开。但在某些情况下,边界的倾斜导致其离数据非常近,以致指向边界的微小扰动可能导致数据越界。

2.1.1.3 决策边界相似性假设

Tramèr等人[19]针对对抗样本可以对多个模型产生有效攻击这一现象,从模型决策边界的角度开展研究,发现在定量的分析中,相同任务的两个模型之间的子空间在很大程度上是共享的,即模型的决策边界在任意方向上是接近的,为对抗攻击在模型间迁移提供了理论保证。

2.1.2 数据视角

2.1.2.1 低概率分布假设

Szegedy等人[20]通过优化输入微小扰动来最大化网络预测误差,几乎所有的样本附近都存在对抗样本。他们认为深度神经网络具有非直观的性质,其输入空间中存在“盲点”,这些盲点在流形空间中形成低概率pocket。这些盲点中的数据很少被观测到,但却位于每个测试样本附近,其存在与模型的泛化能力并不矛盾。

2.1.2.2 分布缺陷假设

Shafahi等人[21]认为在高维空间中,由于各向同性的原因,样本点之间的距离非常接近。因此只需要很小的扰动就可以将一个样本点移到决策边界附近并改变其分类。在高维超立方体中,如果一个类所占的空间大于一个阈值,那么这个类中几乎所有的样本点都会非常接近类边界,很容易通过小扰动就产生对抗样本。高维并不是对抗样本存在的根本原因,决定对抗样本不可避免性的主要是数据分布的复杂性和集中度,而不是维数。

2.2 对抗样本攻击

针对电磁频谱AI模型的对抗样本攻击从不同的角度有着不同的分类方法,本文从对抗样本攻击多样性、诱导性、先验知识和攻击位置4个角度对现有工作进行梳理,如图3所示。表2对面向电磁频谱AI模型的对抗攻击方法进行了分析总结[22-39]。

表2 面向电磁频谱AI模型的对抗攻击总结

图3 对抗样本攻击分类示意图Fig.3 Adversarial example attacks classification diagram

2.2.1 多样性

2.2.1.1 基于梯度的攻击方法

AI模型的学习过程是利用梯度下降算法降低模型输出与标签或目标函数的损失值。显而易见,使用梯度上升方法对输入数据进行轻微修改,增大损失函数值,是直接的攻击方法。Goodfellow等人[17]提出快速梯度符号法(Fast Gradient Sign Method,FGSM)攻击方法,在增加模型任务损失最快梯度方向施加轻微扰动,可以有效降低模型识别准确率。Lin等人[22]对调制信号识别模型开展了基于梯度的单步和多步对抗攻击,结果表明了多步攻击相对于单步攻击的有效性。通过检查扰动前后波形的一致性,表明这种攻击扰动是难以觉察的。Ke等人[23]对比了两种梯度对抗攻击方法的攻击效果,并研究得出在时域和频域上更为相似的信号类型之间对抗攻击更容易获得成功的结论。

2.2.1.2 基于优化的攻击方法

基于优化方法是通过分析对抗性攻击问题的关键目标和限制条件,将其建模为一个数学优化问题。通常关键目标为模型输出与标签或目标函数之间损失值的增大,限制条件为生成扰动的强度要小于某一临界值,而不至于打破系统容限。Usama等人[24]首先对于基于DL的调制识别模型展开了基于优化的C&W对抗攻击,评估了9种调制识别模型的对抗鲁棒性,结果证明了C&W攻击对于调制识别模型的普遍威胁。Ye等人[25]对于基于DL的多用户正交频分复用检测器的开展了白盒和黑盒的虚拟对抗方法(Virtual Adversarial Training,VAT)和零阶优化方法(Zeroth Order Optimization,ZOO)的对抗攻击,获得了高于传统的多用户干扰的干扰效果,并进一步比较了不同对抗性攻击下的误码率。Seo等人[26]进一步提出多目标优化算法,优化目标包括合作接收机正确接收、窃听者的错误识别、对抗样本的信号失真,并在三个优化目标中获得了权衡,且通过元学习增强了对抗攻击的信道适应性。

2.2.1.3 基于生成模型的攻击方法

基于生成模型的对抗攻击方法受启发与生成对抗网络(Generative Adversarial Network,GAN)[27],使用训练完成或初始化的目标模型或替代模型作为鉴别器,使用生成模型生成对抗样本或对抗扰动,结合鉴别器损失与扰动约束损失来训练生成模型,从而达到对抗攻击生成的目的。Araujo-Filho等人[28]结合GAN和多任务损失来生成对抗样本,同时优化它们导致错误分类和不被感知的能力,在基于决策的黑箱场景下,进一步降低了调制分类器的准确性,并在更短的时间内制作对抗样本。Zhang等人[29]将信道与目标模型合并建模为攻击目标,利用生成模型生成与原始信号具有相同带宽的对抗扰动,提升了对抗攻击的有效性以及隐蔽性。

2.2.2 诱导性

2.2.2.1 非目标攻击

非目标攻击中,攻击者只需要加入扰动使目标模型产生错误的分类结果或异常的输出值即可,对错误的输出没有明确要求。Sadeghi等人[30]对于调制信号识别模型开展了基于梯度的白盒非目标攻击和通用黑盒非目标攻击,两种攻击可以以很高的置信度使目标调制识别模型判断错误。Flowers等人[31]提出电磁频谱物理层调制识别模型的对抗样本攻击关注的是误码率,而不是人类感知。对此,在接收端通过空中同步传输,与从单独的设备异步传输三种情况下对调制识别模型开展了非目标攻击,结果证明三种攻击都能对目标模型性能造成损害,但直接访问攻击是最强的。

2.2.2.2 目标攻击

在目标攻击中,攻击者不仅需要使网络产生错判或异常的输出,还要让错误结果偏向预定的目标。目标攻击超越一般的错误分类,整体难度要大于非目标攻击。Bair等人[32]关注对于调制识别模型的目标对抗样本攻击。具体而言,将分类从特定源调制更改为特定目标调制所需的对抗摄动功率作为模型对其相似性估计的代理,并将其与这些人类工程调制的已知层次进行比较。Kim等人[33]从避免信号被窃听者使用DL分类器来检测信号有无的角度,对窃听模型开展了目标对抗攻击,使其将原始信号识别为噪声,从而在误码率容限内保持隐蔽通信。Kim等人[34]还利用带有多个天线对目标调制信号识别模型发起目标攻击,不同的信道条件,信道方差和信道相关性下,与其他攻击相比,这种攻击在天线间的方面显著降低了分类器的精度。

2.2.3 先验知识

2.2.3.1 白盒攻击

在白盒攻击中,攻击者掌握关于目标网络所有信息,包括数据预处理方法、模型结构、权重、训练超参数、损失函数、优化算法等。攻击者可以充分利用这些信息,精心地设计高效精准的对抗攻击扰动。Lin等人[35]对调制识别模型开展了基于梯度的单步攻击和多步迭代攻击。白盒攻击测试得出在直接访问目标模型输入的情况下,迭代攻击性强于单步攻击的结论。Flowers等人[31]利用目标模型的梯度信息开展白盒对抗攻击,这种对抗攻击就算在信道同步或异步传输情况下依然对标模型的性能有着严重损害。Kim等人[36]在加性高斯白噪声信道之外的信道效应下,对目标调制识别模型展开了目标和非目标白盒攻击,仿真实验表明目标模型很容易受到该对抗攻击的影响。

2.2.3.2 黑盒攻击

在黑盒攻击中,攻击者对目标识别模型的内部信息一无所知。攻击者仅仅可以通过发送数据并查询模型输出结果来获得输入输出关系以实现进一步攻击,而在现实对抗攻防场景中查询的次数也往往受到限制。实际对抗攻防场景中,目标模型的信息往往是被保护起来的,所以黑盒攻击具有更高的实际应用价值。Sadeghi等人[30]对于调制信号识别模型开展了白盒梯度对抗攻击和黑盒通用攻击,表明对抗攻击是无线DL模型普遍面临的威胁。Qi等人[37]提出了一种容错检测黑盒对抗性攻击(Detection Tolerant Black-box Adversarial-attack,DTBA)方法。该方法首先训练本地DL模型作为远程目标模型的替代,训练数据集由攻击者生成、目标模型标记、雅可比变换增广、利用快速梯度下降法 (Fast Gradient Sign Method,FGSM)和投影梯度下降(Projected Gradient Descent,PGD)生成针对本地模型的对抗性攻击样本,实验结果表明DTBA能够发起灵活有效的攻击。Yu等人[38]在假设信道存在随机时延的情况下,利用对抗攻击者发送对抗扰动,对目标调制信号识别模型展开黑盒攻击。串接变换、对抗生成和平均处理三个步骤使得攻击方法表现出了良好的信道鲁棒的黑盒攻击效果。

2.2.4 攻击位置

由于电磁空间具有开放性,任何发射设备都可以通过天线向空间中辐射电磁波,同样任何接收设备也都可以通过天线将电磁波接收回来。开放性导致对输入模型中的电磁信号添加扰动可以从三个位置展开,即接收端、发射端以及信道,分别对应直接式、间接式以及叠加式攻击。

2.2.4.1 接收端

接收端对抗样本攻击中,攻击者直接根据即将输入到AI模型的数据设计对抗样本。这种攻击方法可以将原始扰动注入AI模型而不受信道影响,成功率更高,但是前提是攻击程序能够获得目标AI模型输入数据的访问以及修改权限。Lin等人[35]在直接获取目标模型输入操作权限的假设下,对调制信号识别模型开展了基于单步和迭代的多种基于梯度的对抗样本攻击,结果表明这种攻击相对于传统噪声干扰,可以在极小的干扰功率下使目标模型的性能大幅恶化。Zhang等人[29]发现对抗扰动在频谱上导致的频谱泄露问题,提出谱聚焦频率对抗攻击方法,在接收端将对抗扰动限制在有效信号的频率范围内。实验结果表明,该方法在更低的对抗功率与时频差异下获得了更高的对抗攻击性能。

2.2.4.2 发射端

发射端对抗性机器学习攻击中,攻击者将扰动叠加到发射信号中,通过信道一并注入目标AI模型中。这种攻击方法需要攻击者分析发射端与接收端之间的信道效应,设计具有信道鲁棒性的攻击扰动。Flowers等人[31]开展了直接接入、无线同步和无线异步情况下的对抗攻击研究,结果表明三种情况下对抗扰动均能显著损害调制信号识别模型的分类性能。Kim等人[39]之后发现在不考虑信道效应的情况下设计对抗攻击扰动的攻击效果不尽如人意,并设计了信道翻转攻击。进一步考虑了信道选择性对攻击的影响,设计了能够通用的广播式对抗攻击方法。Zhang等人[29]将信道与目标模型进行统一建模,利用生成模型产生具有频率控制的对抗扰动,将对抗扰动功率聚焦于低频范围,提高了对抗攻击的隐蔽性和有效性。

2.2.4.3 信道端

信道端攻击中,发射端与接收端保持正常工作状态,攻击者使用一个专门的发射机产生扰动,扰动将叠加至当前电磁区域内所有的电磁信号上,并作用于目标接收机。信道端攻击给一对多和多对多提供了更为灵活的攻击方式,这也需要攻击者能够综合分析当前电磁空间的信道效应,产生满足攻击任务需求的对抗扰动。Kim等人[34]提出多天线攻击方式,主要考虑了天线之间的功率分配和信道分集的利用,通过符号级最大信道增益的信道传输对抗扰动攻击调制信号模型,提高对抗攻击性能。进一步通过考虑从对手到接收者的信道来发动真实的对抗,将信道建模为具有路径损失和阴影的瑞利衰落,提出了一种攻击者在仅知信道分布的有限信道信息条件下发起对抗攻击的方法。Yu等人[38]考虑到在物理信号通信场景中,对手发送的对抗性信号受到信道的影响,与原始信号产生随机时延,导致攻击性能衰减的问题,提出了位置不变对抗攻击方法(Position-Invariant Adversarial Attack Method,PIM),该方法通过对移位输入信号产生的对抗信号进行平均来产生位置不变对抗信号,以减轻信道对时间延迟的影响。

3 评估体系

电磁频谱面临着来自于对抗攻击等技术手段的大规模安全隐患,为了提升DL模型抵御攻击的能力,众多研究者围绕评估指标展开大量研究,本部分对上述评估指标的相关研究进行总结整理,如图4所示,将评估体系分为模型评估、数据评估和领域特性评估三方面进行重点梳理和对比分析。

图4 电磁频谱AI模型对抗安全威胁评测体系Fig.4 Evaluation system of adversarial security threats to electromagnetic spectrum AI models

3.1 模型评估

3.1.1 模型分类精度

模型分类精度(Accuracy,Acc)描述了模型对于对抗样本的识别性能[40],模型能够正确识别的信号对抗样本占总信号样本数的比值表示如下：

(1)

式中：count(·)表示模型预测正确时为1,预测错误时为0。该值越大,表明模型对于对抗样本的分类性能越好。

3.1.2 对抗样本攻击准确率

对抗样本攻击准确率(Adversarial Accuracy,AA)[44]是指能够让目标模型成功预测错误的对抗样本数占总样本数的比值。

(2)

可见,AA值越大在一定程度上可以说明模型的对抗鲁棒性越差。根据攻击方式不同可分为白盒攻击准确率和黑盒攻击准确率。

3.1.3 噪声容忍度

Luo等人[42]提出噪声容忍度估计(Noise Tolerance Estimation,NTE)指标用来衡量对抗样本攻击的鲁棒性：

(3)

式中：Pyj(·)表示模型将样本错分成类别j的置信度,Pyk≠j(·)表示模型将样本错分成除类别j外的其他类别的置信度。NTE值越大,说明对抗样本的鲁棒性越强。

3.1.4 互补鲁棒性曲线

互补鲁棒性曲线(Complementary Robustness Curves,CRC)用来展示模型在对抗攻击下的性能表现。Dong等人[43]提出“扰动-精确率”曲线,该曲线能够直观展示不同扰动大小下模型识别准确率。“迭代次数-准确率”曲线能够体现在不同迭代次数下的模型识别性能,体现了不同对抗攻击方法的攻击效率。

3.2 数据评估

3.2.1 基于不可感知性

3.2.1.1 平均失真度

平均失真度(Average LpDistortion,ALDP)[44]在数据层面度量对抗样本的不可感知性：

(4)

式中：N表示样本总数。该指标相当于对lp的平均归一化,该值越小,表明对抗样本和原始样本越难以区分。

3.2.1.2 平均结构相似度

平均结构相似度(Average Structural Similarity,ASS)[44]描述对抗样本与自然样本之间在结构上的相似度：

(5)

3.2.1.3 扰动灵敏度

扰动灵敏度(Perturbation Sensitivity Distance,PSD)[44]指标基于对比掩蔽理论,衡量对抗样本扰动的感知性,其公式定义如下：

(6)

Sen(xij)=1/SD(xij),

(7)

(8)

式中：N表示样本总数,M表示每一个样本下的像素总数,δij表示样本i下的第j个像素,xij表示该像素的周围区域,Si表示区域中像素的集合,μ表示像素的平均值。PSD值越大表明对抗样本越易被感知。

3.2.2 基于测试充分性

3.2.2.1k节神经元覆盖率

Ma等人[45]将神经网络的输出分为主要区域和边缘区域。如果对抗样本与原始测试样本差异较大,则输出在边缘区域,否则输出集中在主要区域。将主要区域划分成k个长度相等的段落,提出了k节神经元覆盖率(k-Multi-Section Neuron Coverage, kMNCov)指标,用以衡量输出覆盖主要区域的程度,表示为测试数据集覆盖的节段数与总节数的比值：

(9)

3.2.2.2 神经元边界覆盖率

神经元边界覆盖率(Neuron Boundary Coverage,NBCov)[45]指标衡量了边缘区域中的覆盖程度,表示为在边缘区域中覆盖神经元数量与总神经元数的比值：

(10)

式中：UCN为覆盖到上边界神经元的数量,LCN为覆盖到下边界神经元的数量,N′表示上、下边界神经元数。该指标值越大,表明覆盖的边缘区域越多,即对抗样本测试越充分。

3.2.2.3 强神经元激活覆盖率

强神经元激活覆盖率(Strong Neuron Activation Coverage,SNACov)[45]用来描述测试数据集在极端区域中上边界的覆盖情况：

(11)

式中：UCN表示上边界神经元数,Nall表示总神经元数。需要注意的是,基于测试充分性的测试结果越好,表明评估结果的可信度越高。

3.3 领域特性评估

3.3.1 扰动噪声比

Sadeghi等人[30]提出了适用于电磁领域的指标,即扰动噪声比(Perturbation to Noise Ratio,PNR),表示为扰动功率与噪声功率之比,当信号对抗样本的PNR小于设定的阈值,即可认为该扰动是不可觉察的。

(12)

式中：ε表示最大扰动,SNR表示信噪比。PNR越小,说明对抗扰动能在噪声中隐蔽起来不易被发现。

3.3.2 扰动信号比

Sadeghi等人[30]提出扰动信号比(Perturbation to Signal Ratio,PSR),定义为对抗样本扰动信号功率与传输电磁信号的总功率之比,可以衡量信号在传输过程中对抗扰动所带来的干扰：

(13)

式中：Ep表示传输中对抗样本扰动信号的功率,Es表示电磁信号总功率,包括原始信号功率、噪声功率以及对抗样本扰动功率。

3.3.3 拟合度差异

针对电磁信号对抗样本可感知性的量化评估问题,Zhao等人[40]提出了基于样本拟合度差异的评估指标,该指标通过度量受攻击前后波形的相似度,准确地量化波形的受扰动程度：

(14)

3.3.4 峰值功率比

Kokalj-Filipovic等人[46]利用接收信号数字射频样本的峰均功率比(Peak to Average Power Ratio,PAPR)对输入样本检测,计算和评估样本的PAPR分布来判断输入数据是否异常。

(15)

式中：X(n)表示信号波形;max|X(x)|表示峰值,即信号中最高的采样值;E[|X(n)|]表示信号中所有采样值的平均值。

3.3.5 logits 组合评价

赵浩钧等人[47]提出一种基于logits评价指标,用以衡量对抗样本对调制信号识别模型的攻击效果：

(16)

式中：ls为该样本真实类别的logits值,lT为除了真实类别之外最大预测类别的logits值。该指标越小,说明对抗样本越容易被错误识别。

4 未来研究方向

4.1 对抗攻击

发展无特定先验知识下对于信道鲁棒的对抗攻击方法。在当前复杂的对抗威胁环境下,电磁频谱中AI模型的应用日益强调对抗安全问题,这种趋势将推动更多的安全措施的设计和广泛采用。电磁频谱中AI模型应用将更加注重信道影响下的攻击,包括利用不同的传感器、信号处理技术和信道特性对于对抗攻击有效性的影响;各种安全措施也会加剧对目标模型的先验知识的隐蔽。因此,这种演进将深化对两个关键领域的关注：信道影响下的攻击和无需特定知识的通用对抗攻击,这将成为未来对抗攻击技术发展中亟待解决的重要问题。

4.2 鲁棒评测

建立完善的电磁频谱对抗攻防评测体系。目前虽然多种评测指标已经被提出,但目前评估手段片面,评估难以触及模型深层性能。建立更为完善的评测体系将在电磁频谱中AI模型对抗攻防的研究中扮演至关重要的角色。评测体系的发展有望促进对抗攻击技术的不断改进,提高AI系统的鲁棒性和安全性。通过制定标准化的测试和评估方法,研究人员能够更准确地测量不同对抗攻击方法的效果,为安全防护提供可衡量的指标。此外,评测体系还可以帮助制定政策和法规,以确保电磁频谱中AI模型应用的安全性。

4.3 应用平台

建立电磁频谱AI模型对抗攻防博弈平台。该平台将为电磁频谱中AI的应用提供重要的研究工具和实验基础,从而推动对抗攻防技术的发展。该平台可以提供一个标准化的环境,以便研究人员能够在控制实验条件的情况下测试和比较不同的对抗攻防方法。这有助于更好地理解对抗攻击的本质,为创新提供更广泛的发挥空间。此外,电磁频谱AI模型对抗攻防博弈平台还将促进跨学科的合作,不同部门和从业者可以共同使用,分享知识和资源,共同应对对抗攻击威胁。最重要的是,该平台的创建有助于形成自主演化机制,通过模拟对抗情境,不断测试和改进攻击与防御策略,加速对抗攻防技术的进步,确保电磁频谱中的AI应用能够在日益复杂和敌对的环境中安全运行。

5 结论

对抗攻击对于电磁频谱AI模型的影响已经被证实是有效的,且电磁空间的开放性也为攻击提供了可行性。从训练阶段攻击与测试阶段攻击两方面,分别介绍了数据投毒、后门攻击和对抗样本攻击的潜在原理,并系统性地回顾了相关研究工作与最新进展。除此之外,还从数据、模型和电磁信号领域特性三个角度梳理了对抗攻击的评估指标,并提出了具有价值与潜力的研究方向。