SimVLG: 简单高效的视觉语言生成模型预训练

本文提出了 “SimVLG”—— 一种用于预训练计算密集型视觉语言生成模型的简化框架，利用冻结的预训练大型语言模型 (LLMs)。我们的单阶段单损失框架通过在训练过程中逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段，从而实现了快速收敛而不损失性能。实验证明，我们的方法可以将视觉语言模型的训练速度提高 5...

本文提出了SimVLG框架，用于预训练计算密集型视觉语言生成模型。该框架通过逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段，实现了快速收敛而不损失性能。实验证明，该方法可以将视觉语言模型的训练速度提高5倍，而整体性能几乎没有明显影响。同时，该模型只需原数据的十分之一即可达到与当前视觉语言模型相当的性能。最后，作者展示了如何将该模型应用于视频-语言生成任务。