小红花·文摘

本研究提出了一种名为Mango的方法，旨在提升预训练视觉-语言模型的鲁棒性。通过多模态对抗性噪声生成器，Mango在七项测试中创造了新高。研究还探讨了多模态大型语言模型（MLLMs）的对齐方法及其在处理文本和视觉数据中的应用，强调了模态对齐的重要性和挑战，并提出了文本为中心的多模态学习对齐（TAMML）方法，以应对模态不匹配问题。