ICLR 2024 | 联邦学习后门攻击的模型关键层

AIGC动态1年前 (2024)发布 almosthuman2014

1,944 0 0

文章摘要

联邦学习是一种分布式的机器学习方法，它允许多个参与方在保护数据隐私的前提下共同训练模型。

然而，这种方法存在安全隐患，因为服务器无法监控参与者在本地的训练过程，参与者可能会篡改本地模型，导致如后门攻击等安全问题。

本文深入探讨了如何在有防御保护的训练框架下对联邦学习发起后门攻击。研究发现，后门攻击的成功与神经网络中某些特定层（称为后门攻击关键层）的相关性较高。基于这一发现，文章提出了一种通过攻击这些关键层来绕过防御算法检测的方法，从而实现对少数参与者的高效后门攻击。

研究者提出了一种层替换方法来识别后门关键层。首先，将模型在无后门的干净数据集上训练至收敛，保存为良性模型。然后，将良性模型复制并在含有后门的数据集上训练，保存为恶意模型。接着，通过替换良性模型中的层到恶意模型中，并计算后门攻击成功率的变化（△BSR），来评估每一层对后门攻击的影响。通过对所有层进行排序，可以找到对后门攻击影响最大的层，并将其加入到后门攻击关键层集合中。如果替换后的模型的后门攻击成功率超过了设定的阈值，算法则停止；否则，继续添加层直到满足条件。

实验结果表明，所提出的基于后门关键层的攻击在CIFAR-10和MNIST数据集上对多种防御方法都非常有效。实验使用后门攻击成功率（BSR）和恶意模型接收率（MAR）作为评价指标。结果显示，即使在恶意客户端数量较少的情况下，所提出的攻击方法也能取得很高的BSR。此外，消融实验表明，相比于非关键层，对后门关键层的投毒攻击成功率更高，验证了算法有效地识别出了后门攻击关键层。模型聚合和自适应控制模块的消融实验也证明了这两个模块的有效性。

总结来说，本文揭示了联邦学习中现有防御方法的漏洞，并提出了一种新的基于层的攻击方法。这项研究表明，未来的防御算法需要更加精细化，以更好地保护联邦学习的安全。

作者介绍方面，Zhuang Haomin是本文的主要研究者，他本科毕业于华南理工大学，曾在路易斯安那州立大学IntelliSys实验室担任研究助理，目前在圣母大学攻读博士学位。他的主要研究方向是后门攻击和对抗样本攻击。