文本到图像模型在视觉模态缺失的多模态学习中的应用

通过用生成式变压器填补缺失的视觉数据，我们提出了一个简单但有效的多模态学习框架 GTI-MM，以增强数据效率和模型的鲁棒性，尤其是对于缺少视觉模态的情况。我们在多个多模态数据集上进行了全面的分析，包括模型的训练，结果显示合成图像有助于训练数据的效率，并提高在训练和测试中缺失视觉数据的模型的鲁棒性。此外，我们证明了 GTI-MM 对于生成数量较低和简单提示技术也是有效的。

通过使用生成式变压器填补缺失的视觉数据，研究人员提出了一个名为GTI-MM的多模态学习框架。他们在多个数据集上进行了实验，结果显示合成图像有助于提高训练数据的效率，并增强了在缺少视觉数据的情况下模型的鲁棒性。此外，他们还证明了GTI-MM对于生成数量较低和简单提示技术也是有效的。