小红花·文摘

本文提出了一种多模态模型融合框架，结合预训练的辅助语言模型和掩码语言模型，以提高图像描述的质量和语法准确性。研究表明，通过合成数据和优化训练方法，模型在多个基准数据集上表现显著提升，尤其在图像与文本对齐方面。CapsFusion框架展示了在样本效率和模型性能上的优势，为未来多模态模型训练提供了新思路。