小红花·文摘

本研究提出了一种无监督视觉投影（SVP）框架，解决了视觉语言模型对高质量图文数据的依赖问题。SVP无需策划数据或注释，显著提升了图像标注和对象回忆等任务的性能，展现出重要的应用潜力。