基于隐式对比学习的视觉概念建模:视觉语言指令微调 本研究针对当前大型视觉-语言模型在处理整个图像时效率低下的问题,提出了一种端到端的自监督视觉概念建模框架VCM。该方法通过隐式对比学习和视觉-语言微调构建视觉概念模型,显著降低计算成本,同时保持在各种图像理解任务中的优良性能,从而提升了视觉编码器在经典视觉概念感知任务中的能力。 本研究提出了一种自监督视觉概念建模框架VCM,旨在提高大型视觉-语言模型处理图像的效率,降低计算成本,同时保持良好的性能。 对比学习 建模 建模框架 性能 自监督 视觉概念 计算成本