生成具有有效性和自然性的大型语言模型对抗样本
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
攻击者可以使用视觉对抗样本来影响与大型语言模型连接的用户资源的机密性和完整性。这些攻击可以操控LLM调用工具,并保持与原始图像的高相似度。然而,对话没有受到显著影响。
🎯
关键要点
- 大型语言模型的多模态处理和工具使用能力带来了新的好处和安全风险。
- 攻击者可以使用视觉对抗样本来操控 LLM 调用特定工具。
- 这些攻击影响与 LLM 连接的用户资源的机密性和完整性。
- 攻击保持隐秘性,并可泛化到多个输入提示。
- 基于梯度的对抗训练用于构建这些攻击,表现出高准确率(约 98%)和高相似度(约 0.9 SSIM)。
- 攻击对用户与 LLM 之间的对话及其语义没有显著影响。
➡️