机器之心 ·

杨笛一团队：一个弹窗，就能把AI智能体操控电脑整懵了

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

研究显示，弹窗攻击对计算机智能体的影响显著，点击率高达92.7%。虽然人类也易受此干扰，但这反映了视觉-语言模型的缺陷。为提升AI应用安全性，需开发更先进的防御机制。

🎯

🔎

研究表明，弹窗攻击不仅对计算机智能体有效，人类用户同样容易受到影响。这种普遍性提示我们在设计AI系统时，必须考虑到用户界面的安全性，尤其是在涉及敏感操作时，弹窗的设计和呈现方式需要更加谨慎。

尽管研究尝试了多种防御措施，如添加忽略弹窗的提示，但效果并不理想。这表明当前的防御机制尚不够成熟，未来需要更为复杂和智能的防御策略，以有效应对弹窗攻击带来的风险。

实验结果显示，五个前沿的视觉-语言模型在面对弹窗攻击时表现出较高的成功率，反映出它们在安全意识上的缺失。这一发现强调了在AI模型训练中，必须加入对抗性训练，以提升其对潜在攻击的抵御能力。

❓

弹窗攻击的点击率高达92.7%，显示出对计算机智能体的显著影响。

视觉-语言模型缺乏与弹窗相关的安全意识，导致在弹窗攻击中表现不佳。

弹窗攻击的设计元素包括注意力钩子、指令和信息横幅等。

目前的防御措施效果有限，简单提示几乎没有缓解效果，需要更详细和具体的防御策略。

攻击成功的原因包括智能体的思维过程被弹窗干扰，导致其误点击。

攻击失败的原因包括智能体认为任务已完成或查询不相关等。

🏷️