本研究提出了一种名为Mango的方法,旨在提升预训练视觉-语言模型的鲁棒性。通过多模态对抗性噪声生成器,Mango在七项测试中创造了新高。研究还探讨了多模态大型语言模型(MLLMs)的对齐方法及其在处理文本和视觉数据中的应用,强调了模态对齐的重要性和挑战,并提出了文本为中心的多模态学习对齐(TAMML)方法,以应对模态不匹配问题。
完成下面两步后,将自动完成登录并继续当前操作。