BriefGPT - AI 论文速递 ·

透视面具：重新思考CAPTCHA的对抗样本

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了一种新算法Show-and-Fool，研究神经图像字幕系统的语言基础及鲁棒性。实验表明，该算法能够生成对抗性例子，增强视觉语言基础的理解。此外，研究还探讨了图像到文本模型的解码能力，发现模型在掩蔽情况下仍能生成相关字幕，表现出良好的鲁棒性。

🎯

❓

Show-and-Fool算法用于研究神经图像字幕系统的语言基础和鲁棒性，能够生成对抗性例子以误导输出字幕或关键字。

实验表明，该算法能够生成视觉相似的对抗性例子，并对其他图像字幕系统具有高度可传递性。

研究发现，图像到文本模型在掩蔽情况下仍能生成相关字幕，表现出良好的鲁棒性。

该算法通过两种评估方法检查系统是否能够误导输出某些随机选择的字幕或关键字。

生成的对抗性例子导致了视觉语言基础的新型健壮性影响和新的洞察。

该算法的创新在于其能够生成视觉相似的对抗性例子，并对其他图像字幕系统具有高度可传递性。

🏷️