BriefGPT - AI 论文速递 ·

RT攻击：通过随机标记破解文本到图像模型

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文提出了一种针对图像到文本模型的灰盒对抗攻击方法，评估文本到图像生成模型的鲁棒性。研究发现现有防御机制脆弱，许多有害图像被错误标记为安全。通过众包挑战收集了大量提示-图像对，揭示了新的攻击策略，强调了持续审查和适应性的重要性，以促进T2I模型的安全开发。

🎯

❓

灰盒对抗攻击方法是一种针对图像到文本模型的攻击策略，旨在评估文本到图像生成模型的鲁棒性。

研究发现，许多有害图像被错误标记为安全，且现有防御机制无法有效阻止攻击。

通过构建Adversarial Nibbler Challenge，利用用户界面与不同人群合作，收集提示-图像对以识别安全问题。

第一轮挑战结果显示，1,500个样本中有14%的有害图像被机器错误标记为安全。

本文提出了更强大的自动越狱流程和通用攻击策略，能够有效越狱MiniGPT-4，成功率达到96%。

持续审查和适应性能够帮助发现新漏洞，确保T2I模型的鲁棒性和安全性。

🏷️