对抗式机器学习攻击与缓解措施分类及术语(下)
内容提要
生成式AI技术包括生成式对抗网络和扩散模型,攻击可分为模型投毒和隐私泄露,分别发生在训练和推理阶段。攻击者通过控制训练数据和查询权限实施攻击。安全措施包括对抗训练和输入过滤。随着技术进步,安全问题日益严重,需加强防护。
关键要点
-
生成式AI包括生成式对抗网络、生成式预训练Transformer模型和扩散模型。
-
攻击可分为模型投毒和隐私泄露,分别发生在训练和推理阶段。
-
攻击者通过控制训练数据和查询权限实施攻击。
-
安全措施包括对抗训练和输入过滤。
-
随着技术进步,安全问题日益严重,需加强防护。
-
GenAI的模型开发与传统开发过程不同,需要在无监督学习的预训练阶段创建基础模型。
-
训练阶段攻击主要包括基础模型预训练和模型微调,易受到投毒攻击。
-
推理阶段攻击主要针对LLM,攻击者可利用数据通道进行推理阶段攻击。
-
攻击目的包括破坏可用性、完整性、隐私泄露和违法滥用。
-
攻击者需要具备训练数据控制、查询权限、源代码控制和资源控制等能力。
-
人工智能供应链攻击可通过供应链安保措施来缓解。
-
直接提示注入攻击可用于绕过安全措施,构造虚假信息等。
-
间接提示注入攻击通过控制资源影响系统操作,可能导致可用性、完整性和隐私泄露。
-
针对提示注入的防御策略包括对齐训练、提示指令和格式化技术、检测技术等。
-
规模挑战和对抗鲁棒性的理论限制是当前面临的主要问题。
-
开放与封闭模型的选择引发了关于安全性和可控性的讨论。
-
供应链挑战和可信AI的属性权衡是未来发展的重要考虑。
延伸问答
生成式AI的主要技术有哪些?
生成式AI主要包括生成式对抗网络、生成式预训练Transformer模型和扩散模型。
对抗式机器学习攻击的类型有哪些?
对抗式机器学习攻击主要分为模型投毒和隐私泄露,分别发生在训练和推理阶段。
攻击者如何实施模型投毒攻击?
攻击者通过控制训练数据,插入或篡改训练样本来实施模型投毒攻击。
有哪些安全措施可以缓解对抗式机器学习攻击?
安全措施包括对抗训练和输入过滤等方法。
间接提示注入攻击的主要风险是什么?
间接提示注入攻击可能导致可用性、完整性和隐私泄露等风险。
如何防范提示注入攻击?
防范提示注入攻击的策略包括对齐训练、提示指令和格式化技术、检测技术等。