小红花·文摘

本文介绍了一种新算法Show-and-Fool，研究神经图像字幕系统的语言基础及鲁棒性。实验表明，该算法能够生成对抗性例子，增强视觉语言基础的理解。此外，研究还探讨了图像到文本模型的解码能力，发现模型在掩蔽情况下仍能生成相关字幕，表现出良好的鲁棒性。