图像文字表示的多模态信息瓶颈归因的视觉解释
原文中文,约400字,阅读约需1分钟。发表于: 。通过多模态信息瓶颈(M2IB)方法,本文提出了一种改进视觉 - 语言预训练模型的可解释性的方法,学习将相关视觉和文本特征保留并压缩无关信息的潜在表示。在安全关键领域如医疗保健中应用 M2IB,展示了其在视觉 - 语言预训练模型的归因分析上提高了归因精确度和可解释性的效果。与常用的单模态归因方法不同,M2IB 不需要基准标签,因此可以在存在多模态但无基准数据的情况下审查视觉 -...
本文提出了一种改进视觉-语言预训练模型的方法,通过多模态信息瓶颈(M2IB)学习将相关特征保留并压缩无关信息的潜在表示。M2IB提高了视觉-语言预训练模型的归因精确度和可解释性。