绿盟科技技术博客 ·

对抗式机器学习攻击与缓解措施分类及术语（上）

💡 原文中文，约27100字，阅读约需65分钟。

📝

内容提要

对抗训练提高模型韧性但成本高，随机平滑和形式验证有局限。投毒攻击影响性能，需要数据清洗和鲁棒性训练。隐私攻击威胁用户隐私，差分隐私提供保护但影响准确性。模型提取攻击需防范，设计安全AI系统仍需努力。

🎯

🔎

对抗性机器学习（AML）攻击的复杂性不断增加，涵盖了从模型设计到实际部署的各个阶段。攻击者可以利用模型的脆弱性，进行数据投毒、逃逸和隐私攻击等多种形式的攻击。这要求开发者在设计AI系统时，必须全面考虑安全性和鲁棒性，以防止潜在的攻击。

虽然对抗训练、随机平滑和形式验证等缓解措施被提出以增强模型的鲁棒性，但这些方法各有局限。例如，对抗训练可能导致模型在干净数据上的准确性下降，而随机平滑的计算复杂度较高。因此，在选择缓解措施时，需在鲁棒性与准确性之间找到平衡。

隐私攻击如成员推理和数据重构攻击对用户数据构成严重威胁。尽管差分隐私提供了一种保护机制，但其实施往往会影响模型的准确性。因此，组织在使用差分隐私时需谨慎，确保在保护用户隐私与保持模型性能之间取得合理的平衡。

❓

对抗训练可以提高模型的韧性，但成本较高，且可能降低模型在干净数据上的准确性。

投毒攻击是指攻击者通过操控训练数据来影响模型性能，可能导致模型的可用性或完整性下降。

隐私攻击可能导致用户敏感信息泄露，包括训练数据的成员推理和数据重构。

差分隐私通过限制攻击者对数据集每条记录的了解程度，从而保护用户隐私，但可能影响模型的准确性。

模型提取攻击旨在通过查询模型获取其架构和参数信息，从而为后续攻击提供基础。

可以通过对抗训练、随机平滑和形式验证等方法来缓解逃逸攻击的影响，但这些方法各有局限。

🏷️