本研究提出了一种名为VCM的自监督视觉概念建模框架,旨在提高大型视觉-语言模型的效率。该方法通过隐式对比学习和视觉-语言微调,显著降低计算成本,同时在图像理解任务中保持优良性能。
完成下面两步后,将自动完成登录并继续当前操作。