图像文字表示的多模态信息瓶颈归因的视觉解释
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了一种改进视觉-语言预训练模型的方法,通过多模态信息瓶颈(M2IB)学习将相关特征保留并压缩无关信息的潜在表示。M2IB提高了视觉-语言预训练模型的归因精确度和可解释性。
🎯
关键要点
- 提出了一种改进视觉-语言预训练模型的方法,称为多模态信息瓶颈(M2IB)。
- M2IB学习将相关视觉和文本特征保留,并压缩无关信息的潜在表示。
- 在医疗保健等安全关键领域应用M2IB,展示了其提高归因精确度和可解释性的效果。
- M2IB与常用的单模态归因方法不同,不需要基准标签,适用于无基准数据的多模态情况。
- 以CLIP为例,证明了M2IB归因的有效性,显示其在梯度、扰动和注意力等归因方法上的优越性。
🏷️
标签
➡️