对抗式机器学习攻击与缓解措施分类及术语(下)
💡
原文中文,约22300字,阅读约需54分钟。
📝
内容提要
生成式AI技术包括生成式对抗网络和扩散模型,攻击可分为模型投毒和隐私泄露,分别发生在训练和推理阶段。攻击者通过控制训练数据和查询权限实施攻击。安全措施包括对抗训练和输入过滤。随着技术进步,安全问题日益严重,需加强防护。
🎯
关键要点
- 生成式AI包括生成式对抗网络、生成式预训练Transformer模型和扩散模型。
- 攻击可分为模型投毒和隐私泄露,分别发生在训练和推理阶段。
- 攻击者通过控制训练数据和查询权限实施攻击。
- 安全措施包括对抗训练和输入过滤。
- 随着技术进步,安全问题日益严重,需加强防护。
- GenAI的模型开发与传统开发过程不同,需要在无监督学习的预训练阶段创建基础模型。
- 训练阶段攻击主要包括基础模型预训练和模型微调,易受到投毒攻击。
- 推理阶段攻击主要针对LLM,攻击者可利用数据通道进行推理阶段攻击。
- 攻击目的包括破坏可用性、完整性、隐私泄露和违法滥用。
- 攻击者需要具备训练数据控制、查询权限、源代码控制和资源控制等能力。
- 人工智能供应链攻击可通过供应链安保措施来缓解。
- 直接提示注入攻击可用于绕过安全措施,构造虚假信息等。
- 间接提示注入攻击通过控制资源影响系统操作,可能导致可用性、完整性和隐私泄露。
- 针对提示注入的防御策略包括对齐训练、提示指令和格式化技术、检测技术等。
- 规模挑战和对抗鲁棒性的理论限制是当前面临的主要问题。
- 开放与封闭模型的选择引发了关于安全性和可控性的讨论。
- 供应链挑战和可信AI的属性权衡是未来发展的重要考虑。
➡️