小红花·文摘

本研究提出了一种通过文本训练提升视觉语言模型（VLMs）细粒度视觉理解的方法。实验结果表明，该方法在效果上与传统图像-文本训练相当，同时显著降低了计算成本，为资源有限环境中的VLM能力提升提供了高效经济的解决方案。