本文介绍了一种新算法Show-and-Fool,研究神经图像字幕系统的语言基础及鲁棒性。实验表明,该算法能够生成对抗性例子,增强视觉语言基础的理解。此外,研究还探讨了图像到文本模型的解码能力,发现模型在掩蔽情况下仍能生成相关字幕,表现出良好的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。