对ML系统的攻击：从安全分析到攻击缓解丨附下载

2023-09-28 15:37 管理员

过去几年，机器学习(ML)系统在多个行业领域的应用迅速增加。由于安全分析是现实世界中ML系统保护实践中最基本的部分之一，因此迫切需要对ML系统进行系统的安全分析。然而，人们普遍认为，现有的安全分析方法和技术是为分析企业(软件)系统和网络而开发的，已不再非常适合分析ML系统。在本文中，我们试图提出如何通过一种新的安全分析方法来解决两个独特的ML安全分析难题。本文旨在迈出第一步，缩小现有网络安全分析方法与理想的ML系统安全分析方法之间的差距。

1 导言

在过去几年中，机器学习(ML)系统的开发和使用大幅增加。自动驾驶汽车正在使用物体检测系统处理摄像头拍摄的图像或视频，以了解周围的实时交通情况[12];机器翻译已被应用于多种语言；Mozilla、Google、IBM等公司已开发出基于深度学习的音频产品。甚至在艺术和娱乐领域，也出现了能作诗、唱歌和画画的"人工智能艺术家"。

随着人工智能系统使用率的上升，它们也吸引了越来越多的攻击者。最早针对ML系统的著名攻击之一是微软的Twitter聊天机器人Tay。Tay采用在线机器学习技术，但却被一些用户引入歧途，他们要求Tay重复可能有害或不恰当的内容。最终，由于Tay的交流行为造成了负面影响，微软在短时间内关闭了Tay这一安全事件表明，保护ML系统变得越来越重要。

由于安全分析是现实世界ML系统保护实践中最重要的部分之一，因此迫切需要对ML系统进行系统的安全分析。然而，安全界普遍认为，现有的安全分析方法和技术是为分析企业(软件)系统和网络而开发的，已不再适合分析部署在比企业更广泛的环境中并可能对社会造成负面影响的ML系统。这至少有三个主要原因。首先，ML系统的安全漏洞不同于传统的企业网络。传统企业信息系统的安全漏洞主要与程序逻辑和软件实现漏洞有关，而ML系统的漏洞不仅与传统的安全漏洞有关，还与ML算法/模型的一些基本限制有关。例如，普遍对抗扰动[30]的存在是深度学习算法的基本限制之一。这些基本限制引入了各种对抗性攻击，如对抗性示例数据中毒和模型后门。

其次，ML系统的架构与传统企业信息系统的架构不再相似。除了传统的软件工程视角，ML系统还有其他视角。本文第2节将详细介绍ML视角、平台视角和供应链视角。这些新的视角和独特的组件为安全分析带来了新的挑战。

第三，上述两个原因引入了新的因果关系，而目前的安全分析方法无法充分处理这些因果关系。例如，攻击图是企业安全分析的基本工具，但主要关注安全漏洞(如CVEs-Common Vulnerabilities and Expo-sures)和漏洞利用(主要关注新获得的权限/访问)之间的因果关系。相比之下，分析ML系统安全问题的良好基础还必须捕捉对抗性攻击所涉及的因果关系。显然，这种因果关系与涉及CVE的传统攻击并不真正相关。

在许多情况下，ML系统的对抗性后果是通过这些后果的严重程度(如影响和损害)来衡量的。这里的对抗性后果包括但不限于ML模型输出操纵、模型提取和成员推理。必须对因果事件进行系统分析，才能了解这些对抗性后果是如何产生的。下面，我们将展示从攻击场景中遇到的因果事件的差异性--有些简单明了，有些则错综复杂。这有助于说明采用新方法进行ML安全分析的必要性。

例1：简单的因果关系。在自动驾驶场景中，交通标志识别(TSR)系统用于识别各种交通标志(如限速、停车标志、十字路口等)。在实际使用中TSR系统可望近乎实时地正确识别交通标志。

然而，经过验证，经过精心欺骗的交通标志虽然很容易被人类观察到，但仍然可以骗过TSR系统。如图1所示，攻击者可以使用投影仪在一个停车标志上投射伪造的图像，并导致驶近的车辆将该标志误认为"限速50"标志。在这个示例中，因果事件及其关系非常清晰:图像制作攻击行为使得投影事件能够欺骗TSR系统。此类攻击可导致严重后果，如交通瘫痪，甚至造成人员伤亡或更严重的后果。

例2：复杂的因果关系。如图2所示，攻击者打算触发一个神经网络，将一个新构建的英语单词翻译成另一种语言(如西班牙语)中的特定含义。在图2中，每个椭圆节点代表一个因果事件，圆角矩形节点代表生产，每条边代表因果关系。单词到单词翻译ML系统将一个英语单词作为输入，并输出在另一种语言中具有相同含义的单词。它使用英语维基百科作为训练数据源。由于维基百科可以公开编辑，攻击者可以在上面发布他/她预先设计好的内容。如果这些内容被人工智能开发人员收集到，那么训练数据就会被篡改，最终导致人工智能模型被玷污，对某些单词产生错误的行为。也就是说，如果给出这个单词，被污染的模型将输出攻击者选择的任意单词，而不是正确的单词。虽然这种攻击听起来很简单，但它已经涉及多个因果事件和相当复杂的因果关系。虽然我们在第四部分才会解释各个因果关系，但我们注意到这种复杂性主要是由机器学习的逻辑造成的。具体来说，(a)词嵌入(即使用维向量表示单词)对单词"意义"的编码方式是，单词向量之间的距离与它们的语义接近程度相对应。(b)深度学习系统不是直接针对维基百科的公开数据进行深度学习，而是首先执行无监督学习，以获得语义嵌入。(c)攻击者没有直接毒化深度学习代理使用的训练数据，而是毒化无监督学习代理使用的数据，因为对语义嵌入的攻击会影响各种下游任务。

除了例2中所示的"复杂因果关系"挑战之外，我们发现ML系统安全分析还面临着另一个艰巨的挑战，那就是日新月异的深度学习技术。虽然计算对于特定的基于ML的应用而言，平台和数据供应链相对稳定，但卷积神经网络(CNN) 循环神经网络(RNN)和图神经网络(GNN)等新的ML模型变体，以及监督、半监督和自监督ML等ML方法不断涌现，现有的基于 ML的应用通过采用这些新变体而不断发展。相应地，对抗性攻击的新变种也会不断出现。因此，特定基于ML应用程序的因果关系集可能会不时发生动态变化，这使得安全分析难以跟上变化的步伐。因果关系需要不断更新，以确保安全分析的准确性和有效性。

在本文中，我们试图提出如何通过一种新的ML系统安全分析方法来解决这两个严峻挑战--复杂的因果关系和这种关系的不断变化。本文旨在迈出第一步，缩小现有网络攻击安全分析方法与理想的ML系统安全分析方法之间的差距。具体来说，我们首先回顾了之前从不同方面研究ML系统安全的工作。然后，基于现有的定性ML系统安全管理，我们确定了ML系统的(定量)安全分析要求。接下来，我们提出了一种初步的ML安全分析方法。最后，我们介绍了一个案例研究，说明如何分析与词到词翻译攻击相关的安全问题(见图2)，以及如何利用初步方法来缓解ML系统中的安全问题。本文的结构如下。第2节简要回顾了从各个方面研究ML系统安全问题的现有著作。第3节确定了ML系统的安全分析要求。第4节描绘了我们对新的ML系统安全分析方法的愿景，并讨论了一个示范用例。第5节讨论了针对ML系统安全问题的缓解技术。第6节是我们的结论。

2 ML系统和攻击

2.1 智能语言系统有三个主要视角

由于ML系统非常复杂，因此不太可能从单一角度来理解ML系统。相反，我们发现ML系统至少有以下三个基本视角。ML视角。ML管道由两套循环或非循环工作流程组成。第一套工作流程是生成深度学习(DL)模型:原始数据经过处理后，生成可部署到生产系统中的模型。在训练阶段，ML 管道包括四个主要步骤。首先，给定原始数据存储库，人工或半自动地为每个原始数据单元标注标签。其次，对数据进行处理，包括特征提取和为下一步形成数据结构。第三，模型训练步骤使用初始训练数据样本集训练模型。最后，将训练好的模型部署到第二个工作流程中。第二个工作流程使用DL模型:它们将(新到达的)原始数据作为输入，并输出分类或预测结果。在测试阶段，当需要对新到达的原始数据单元进行分类时，该单元将被发送到数据处理组件，然后被送入已部署模型。平台视角。即使是同一个ML模型，模型训练平台与模型部署平台也往往不同。例如，在使用私有集群(如Kubernetes)训练模型时，训练好的模型可能会部署在公共云环境(如AWS)中。如果将训练好的模型部署在云的边缘，计算资源可能会受到更多限制。供应链视角。我们发现，现实世界中的ML系统主要涉及三个供应链。数据供应链包括数据收集、数据标注、数据处理和数据消费。模型供应链涉及预训练模型的使用、持续模型训练的采用以及基础模型(如 GPT-3)的使用。库供应链是ML特有的软件供应链类型，因为在模型训练阶段，工程师通常使用上游供应商/公司提供的ML库。

2.2 对抗性攻击

如表1所示，我们根据上一节提到的三条供应链对具有代表性的对抗性攻击进行了分类。通过对抗实例进行规避攻击。模型供应链涉及规避攻击，因为攻击者通常会利用ML模型中的漏洞。规避攻击是指在测试阶段伪造恶意输入，以规避ML检测模型。根据ML模型的访问权限，规避攻击可分为两类。在"白盒"场景中，攻击者可以访问神经网络模型。

如架构、参数、训练权重和训练数据分布。在黑盒方案中，攻击者只能访问公开的模型信息，如输入格式和分类保密分数。但是，他们对内部结构、参数和训练数据集一无所知。

由于白盒攻击可以获得ML模型的详细信息，因此这些攻击会利用网络的梯度对输入产生扰动。Szegedy等人利用对图像的小扰动首次发现了深度学习模型的盲点。他们提出了一种盒式约束L-BFGS算法，在原始图像上产生微小扰动，使其被模型误分类。Goodfellow等人[16]提出了快速梯度符号法(FGSM)算法，利用成本函数相对于输入的梯度，获得最优的最大规范约束扰动。Kurakin等人开发的基本迭代法(BIM)和迭代最小似然类方法(ILCM)通过小步迭代生成对抗样本，对FGSM进行了扩展和改进。Papernot等人提出的基于雅各布显著性图的攻击(JSMA)利用显著性图选择关键特征来修改原始二进制文件。Su等人利用差分进化对原始图像进行扰动。Moosavi-Dezfooli等人提出的DeepFool算法利用距离度量目标神经网络的判定边界，以迭代的方式对图像进行扰动。Carlini和Wagner提出了基于梯度的攻击，通过计算一个反向传播步骤生成对抗样本。Moosavi-Dezfooli等人设计了一种通用扰动，可添加到任何图像中以规避检测模型。Yuan等人在歌曲中注入语音命令，以控制自动语音识别系统而不被察觉。

黑箱攻击利用有限的信息生成网络梯度的隐式近似值。Papernot等人设计了一个替代模型来攻击黑盒模型，然后用替代模型的梯度生成对抗示例。零阶优化基于黑盒的攻击使用有限差分法估计近似梯度。生成对抗网络(GAN)是直接从生成对抗网络中生成对抗示例的方法。Guo等人提出了一种基于贪婪局部搜索技术的攻击方法。还有人引入了强化学习，通过对损失函数的梯度或模型的可信分数添加小扰动来生成对抗示例。

针对TSR系统的规避攻击非常常见。Nassi等人利用配备便携式投影仪的无人机进行了一次真实世界实验，以欺骗高级驾驶辅助系统。该投影仪将一个错误的交通标志(如限速标志)投射到墙壁上，而一辆行驶中的汽车的TSR系统被误导，将欺骗的标志归类为真正的标志。 Gnanasambandam等人提出了一种投影仪-摄像机系统，该系统能将对抗样本转换成真实的金属停车标志，而TSR系统则将其误判为限速30标志。Lovisotto等人提出了短时对抗扰动(SLAP)，通过在各种光线条件下(包括室外)使用投影仪生成物理上稳健的真实世界对抗样本，并与最先进的物体检测器Yolov3和Mask-RCNN以及交通标志识别器Lisa-CNN和Gtsrb-CNN进行对抗。

中毒攻击和后门。中毒攻击的目的是在模型训练阶段制作恶意示例，以便在网络模型中植入后门或漏洞，用于未来的攻击。数据供应链和模型供应链都涉及中毒攻击，因为1)中毒者会操纵训练数据;2)污染的数据会影响生成的ML模型;3)受影响的ML模型将用于日后的检测。

通过引入包括像素模式及其目标标签在内的触发器，首先将人类容易识别的可见后门触发器注入ML模型。Gu等人展示了深度学习供应链中的潜在漏洞。如果模型是用中毒数据训练的，或者模型是基于恶意的预训练模型，攻击者就可以利用ML模型中的后门逃避检测。Xu等人对有后门的DNN进行了研究，提出了一种有效的防御方法，既能降低攻击成功率，又能正确分类干净的图像。Liu等人[26]提出了一种木马触发生成算法，该算法利用代价函数的梯度在初始图像上生成掩码。

Li等人提出的隐形后门触发器利用损失函数梯度和显著性图生成隐形触发器。Ning等人提出了一种黑盒场景下的隐形中毒攻击。Muñoz- González等人针对多类问题提出了一种基于后梯度优化的新算法。 Jagielski等人提出了子群攻击，这种攻击可以误分类数据中的一个子群，并保持这个子群之外的点的性能。Patel等人提出了一种注入虚假概念的方法，这种方法会降低系统的性能。

探索性攻击。探索性攻击的目的是获取有关ML模型的信息，从而影响模型供应链。例如模型反转攻击可以提取隐私和敏感特征，并利用ML模型的输出恢复面部图像。通过API的模型提取攻击可以学习提取流行模型类别的参数，包括逻辑回归、神经网络和决策树。推理攻击从ML模型中收集相关信息，即给定数据是否属于模型的训练集。软件攻击。软件攻击与库供应链有关，它们利用依赖包的漏洞攻击ML系统。据报道，有10多个新的软件漏洞及其依赖包在多个深度学习框架中导致堆溢出、整数溢出、崩溃和拒绝服务(DoS)。自2019年以来报告的GoogleTensorflow的299个漏洞。基于PyTorch2.3.24以下版本构建的产品使用不安全的YAML加载，这会导致攻击者设计的嵌入式恶意代码在本地运行。

3 ML系统的安全分析要求

3.1 统求

我们认为，要成功进行ML安全分析，(定量)分析方法应证明以下几点:

—R1：该方法应通过系统的基本自动化的方法来应对"复杂因果关系"

的挑战(见例2)。

—R2：该方法应能帮助安全分析人员避免常见错误，跟上因ML系统演变

以及ML模型和方法的新变体而产生的变化。

—R3：R3由于ML系统有三个主要视角，孤立的组件级安全分析非常有限。该方法应能在ML系统层面进行综合安全分析。

—建议4：安全分析结果应可解释。

—R5：如果防御措施可能导致显著的攻击缓解效果，防御措施和/或缓解效

果应能在方法中明确建模。

—R6：新发现的ML系统安全问题不需要对方法本身进行任何方法上的修改。

3.2 先前有关ML安全分析工作的局限性

我们将先前的作品分为三类:侧重于单个攻击的作品进行定性系统分析的作品和侧重于传统安全分析的作品。

个体对抗攻击：最近，在(定量)单个安全分析方面做了大量工作。这些工作主要针对特定类型的ML系统安全问题和/或特定组件。在第2节中缓解，我们已经列举了许多此类攻击，因此不再赘述。

在此，我们将详细讨论这类作品。这类工作具有相同的局限性。也就是说，单个的安全分析对于更大范围的安全分析，即整个系统级别的安全分析没有太大帮助。此外，简单总结(如加权求和)所有单个安全得分并不能自动得出有意义的应用级安全分析结果。因此，有必要在应用层面采用另一种方法。

定性ML系统安全分析：此类作品试图回答如何以有意义的方式综合上述单个安全分析结果的问题。它们首先对整个ML系统进行建模，列举所有可能的攻击面和影响，然后尝试提供预防/缓解建议。然而，仅仅"定性"是不够的。应该以有意义的方式量化ML系统的安全性。

传统安全分析：攻击图等传统安全分析方法是企业安全分析的基础。攻击图可以通过分析安全漏洞(如网络中存在的CVE)和漏洞利用之间的因果关系，生成可能的攻击路径。然而，在ML系统中，很多时候并没有明确定义的CVE漏洞，也没有漏洞和漏洞利用之间的相关因果关系。对抗性攻击可以简单地利用数据收集和模型训练过程，而不涉及任何系统漏洞。因此，建立对抗攻击模型并正确捕捉这些攻击所涉及的因果关系是进行ML系统安全分析的前提。

4 建议的方法

为了满足上一节确定的要求，我们提出了一种初步的ML 系统安全分析(ML-SSA)方法，它由以下三个主要部分组成：

—人工智能安全因果关系图(AISC)捕捉了所有在评估对抗性序列可能性中发挥作用的因果关系。与攻击图等传统因果关系图相比，AISC图的独特之处在于它捕捉到了对抗性攻击所涉及的内在因果关系。

—双层ML系统依赖关系图(MLSD)不仅能捕捉软件系统中的传统依赖关系，还能捕捉从供应链角度引入的ML系统依赖关系。使用MLSD图的一个主要动机是，MLSD图可用来以基本自动化的方式识别AISC图中的大部分边和节点。

4.1 人工智能安全因果关系图

提出AISC图形是为了满足第31节中描述的要求R1。它在满足其他要求方面也起着至关重要的作用。为了说明第1节中提到的单词翻译攻击(见图2)所涉及的因果关系，我们构建了相应的AISC图，如图3所示。这个例子表明，AISC图具有以下特点：

—在AISC图中，每个节点都是一个命题(又称陈述)，描述了一个因果事件的前置条件或后置条件，而每条边都代表了两个节点之间的特定因果关系。例如，命题p;("维基百科语料库有毒")是Ps("无监督学习被滥用")的前置条件;而p和ps都对应于无监督学习因果事件。

—一个因果事件可能有两个或多个前置条件。例如，只有当公式"p1 ANDP2ANDPs"的计算结果为真时，后置条件p才能变为真。还可以定义更复杂的关系，如"OR”。在我们的演示中，为了简单起见，我们只使用了"AND"关系。

—一个后置条件的前置条件不仅可以包括有关对抗性攻击的命题，还可以包括有关传统软件攻击的命题。例如，节点p有三个前置条件:p描述了攻击者的数据中毒攻击对语义嵌入的影响，而p和pu则分别描述了攻击者的软件攻击对服务器和库的两种影响。

关于AISC图表为何能在分析对抗性后果中发挥重要作用，我们有以下看法。首先，为了避免在分析对抗性后果时出现与无知相关的错误，必须了解所有相关的因果关系。根据这一原则，ML-SSA方法要求AISC图包含所有已识别的因果关系。

其次，我们观察到AISC图所捕捉到的因果关系能够通过命题逻辑进行逻辑推理。很明显，这种推理在分析对抗性后果方面发挥着至关重要的作用。通过这种推理，我们可以确定通向特定对抗性后果的其他攻击路径，并对不同路径进行比较。

第三，我们发现AISC图形使定量安全分析成为可能。例如，在分析ML系统中的数据中毒攻击时，有关数据中毒攻击的文献要么侧重于最坏情况分析(即这种攻击是否可能发生)，要么侧重于估算攻击成功所需的中毒数据样本数量(如x%)。相比之下，安全分析通常需要明确所有攻击假设，不仅要分析(攻击的)单个前置条件，还要分析前置条件组合。基于 AISC图的概率因果关系推理可以根据前置条件组合进行定量分析。

4.2 系统赖关系图

如果在构建AISC图形的过程中涉及过多的人工工作，安全分析过程可能会变得非常容易出错且成本高昂。因此，我们建议构建MLSD 图形，并利用它们来减少构建AISC图形的人工工作量。构建MLSD图形还有助于满足要求R3。

图4显示了一个具有代表性的MLSD图，它由两层组成:最终用户层和 ML系统管道层，前者旨在描述最终用户如何与ML系统交互，后者则描述开发人员如何生产ML系统并将其交付给最终用户。最终用户层描述最终用户如何与ML系统交互，我们有意省略了许多细节。它始于用户输入的原始数据，终于输出结果。其他组件，如原始数据如何处理以及模型如何利用这些数据进行推理，都被放在黑盒子里，因为最终用户不需要知道这些细节。ML系统流水线层从工程师原始数据采样开始，最终将优化后的模型交付给最终用户。需要注意的是，工程师原始数据与用户输入的数据不同，我们将其描述为工程师原始数据池。开发人员可能不会收集用户输入的原始数据，即使收集到了，开发人员也可能不会对这些数据进行采样。因此，工程师原始数据池通常是所有用户输入数据的子集，所以我们使用两个不同的节点来描述它们。下面的ML功能数据集模型和支持库展示了ML系统的设计流程，每个功能都有相应的领域知识支持。为便于阅读，仅对一些典型的列出了领域知识。

在ML系统管道层中，我们定义了五种节点，分别是ML功能(开发模型的操作)、支持库(支持功能的第三方库) 数据集(开发ML系统所涉及的数据对象) 模型(所涉及的模型，无论是下载的还是自我训练的）、和领域知识(技术选择、数据处理和模型参数，以及支持各种功能的其他"虚拟"实体)，以及三种依赖关系：

—图4中的实线表示数据依赖关系。它们显示了原始数据/处理数据如何在不同组件之间传输。例如，训练数据集是预处理的输出，也是模型训练的输入。由于直接涉及的只有数据，因此它们是通过数据依赖关系连接起来的。

—模型依赖关系在图4中以虚线表示。模型依赖关系可以从预先训练好的模型开始(如果智能语言开发人员不想从头开始)，也可以从模型训练开始(如果智能语言开发人员不使用现有模型，而是从头开始)。以评估节点为例，它将所有训练过的模型作为输入之一，并输出表现最好的模型。在这三个节点中，只有模型会被传递，因此它们是通过模型依赖关系连接的。

—图4中的虚线表示库依赖关系。它们显示了ML开发人员使用的所有第三方库。我们只使用功能和库节点之间的这种依赖关系，因为库是用来支持功能的。虽然有些对象(如数据集和模型)也由库提供支持，但它们仍然是其前面的功能的直接结果，因此我们认为它们与库间接相关，不会为这些对象添加库依赖关系。以模型训练节点为例，一些著名的支持库包括TensorFlow、PyTorch、scikit-learn等直接支持模型训练功能，因此会产生库依赖关系。

请注意，ML系统管道层由计算环境提供支持，该环境拥有多个平台和软件栈，例如用于ML的Kubernetes软件栈。图4所示的计算环境支持ML管道层中的几乎所有节点。

此外，图4还显示了一些跨层连接。沿着从ML管道层到最终用户层的方向，特殊边缘表示ML系统如何从管道层的优化模型开始，经过模型部署/更新，最后在最终用户层部署模型。沿着从最终用户层到ML管道层的方向，特殊边表示ML系统如何从用户输入数据开始，经过原始数据池，并在ML管道层的数据采样结束。

使用MLSD图形减少构建AISC图形的人工工作量。我们观察到，AISC图捕捉到的因果关系与MLSD图捕捉到的各种依赖关系之间存在着映射关系。例如，图3中的节点Pu映射到图4中的"支持库"节点(即"模型训练"节点下的节点);图3中的节点Pi2映射到图4中的"训练模型"节点。此外，图4中"支持库"节点与"模型训练"节点之间的库依赖关系映射到图3中pu到pi2的边。

原则上，MLSD图中的所有三种依赖关系(即库依赖关系数据依赖关系和模型依赖关系)都可以映射到AISC图中的相应边。因此，我们可以先使用MLSD图形自动推断出AISC图形的节点和边的子集，而不是通过人工从头开始构建AISC图形。此外，人们还可以使用MLSD图形自动检查人工构建的AISC图形是否有缺失的节点或边。

4.3 使用ML-SSA方法分析单词翻译攻击

让我们重温一下图2所示的单词翻译攻击。在使用ML-SSA方法分析该攻击的安全性时，我们应首先构建相应的AISC图，如图3所示。如该AISC图所示，为了得到一个有缺陷的翻译神经网络，攻击者可以考虑三种攻击路径。第一种攻击路径包括psp;和pi2;第二种攻击路径包括路径ppul和pi;第三种攻击路径包括ppp23p4P5p7和pi2。除了识别这些攻击路径，我们还可以使用前置逻辑推理每种攻击路径的可能性。(请注意， AISC图本质上是一组命题逻辑公式)。

5 人工智能安全分析和攻击缓解

关于可行的攻击缓解策略以及如何正确实施精细策略，我们的主要看法如下。

首先，根据观察，在许多情况下，人工智能攻击的直接影响并不是最终攻击目标，因此通常可以通过阻止(或减缓)攻击影响的传播来有效缓解攻击。通常存在一条或多条影响传播路径，将人工智能攻击引向最终攻击目标。如果这些路径被阻断，最终攻击目标就无法实现。以数据中毒攻击为例，攻击的直接影响是破坏特定子集的训练数据样本。通过具有安全意识的主动学习，相当一部分被破坏的数据样本可能会被排除在标记的训练集中。这样，攻击对训练模型的影响就会大大降低。尽管如此，我们注意到，研究界对阻断(或减缓)人工智能攻击传播路径的防御机制仍研究不足。

其次，与其阻断(或减缓)人工智能攻击的传播路径，还可以通过阻止传播路径的形成来缓解攻击。再以数据中毒攻击为例，在人工智能系统的某些闭环部署环境(如工厂)中，对所有数据提供者进行认证实际上是可行的。这样，攻击者就很难破坏足够多的数据样本。

第三，除了上述两类攻击缓解策略外，还可以通过移动目标防御来迷惑攻击者，从而有效缓解攻击。例如，a)可以创建虚假的传播路径来误导攻击者;b)可以部署诱饵ML模型;c)一些ML模型可以充当蜜罐;d)可以使用随机样本或对抗实例来训练ML模型。

第四，一旦检测到影响传播，就可以通过(主动)隔离和隔离策略大幅降低攻击影响。例如，如果使用了来自外部的训练数据(如微博评论、用户评论、用户提供的图片等)，我们可以隔离数据收集过程，防止恶意数据进入训练/部署过程。此外，在将收集到的数据用于模型训练之前，开发人员可以通过语义或离群点检测来检查数据的有效性。

第五，对 AISC图和ML系统因果关系的深入分析有助于确定缓解攻击的可行策略。我们尤其注意到:1)规避攻击和探索性攻击往往与模型供应链有关，因此应检查模型发布者的完整性，确保模型没有被蓄意毒害或破坏;2)保护包括训练数据和测试数据在内的数据供应链是防止毒害攻击的关键;3)保持软件更新有助于保护库供应链;4)如果使用来自 GitHub或PyTorchHub的公共ML模型(用于迁移学习微调或其他原因)，最好将其置于隔离环境中，以确保下载的模型不含恶意组件，这既涉及ML安全，也涉及软件安全。

安全问题。因此，建议的方法可以通过以下方式帮助阻断传播路径：

1)首先构建传播路径;然后

2)确定传播路径中可以隔离或增强的关键部件。

5.1 使用单词到单词翻译ML系统示例说明相关缓解策略

为了减少针对词到词翻译ML系统的潜在攻击，我们还考虑了攻击者如何影响三个供应链。作为一种数据中毒攻击，这种攻击主要与数据供应链有关。攻击者的行动发生在非常早期的阶段，通常会玷污ML开发人员收集的原始数据。因此，一种直接的缓解方法是验证收集到的原始数据(消除图3中p;的可能性)，这样任何被攻击者玷污的内容都不会进入语料库，或者进入语料库的玷污内容数量会减少。除了验证收集到的数据外，还有一些训练数据错误缓解技术来减轻数据中毒，如标签平滑、标签校正、鲁棒性丢失等。通过假设收集到的数据是错误的，这些技术可以在早期阶段保护ML模型。另一种可能的缓解方法是在部署模型之前进行大量的模型测试，希望能发现训练模型的奇怪行为。