小红花·文摘

本研究提出了一种名为VCM的自监督视觉概念建模框架，旨在提高大型视觉-语言模型的效率。该方法通过隐式对比学习和视觉-语言微调，显著降低计算成本，同时在图像理解任务中保持优良性能。