小红花·文摘

CapsFusion是一种利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息的框架，提供更高质量和更可扩展的多模态预训练数据。实验证明，CapsFusion字幕在模型性能、样本效率、世界知识深度和可扩展性方面展示出卓越的全面优势，成为未来大规模多模态模型训练的有希望的候选者。