本研究提出了一种通过文本训练提升视觉语言模型(VLMs)细粒度视觉理解的方法。实验结果表明,该方法在效果上与传统图像-文本训练相当,同时显著降低了计算成本,为资源有限环境中的VLM能力提升提供了高效经济的解决方案。
完成下面两步后,将自动完成登录并继续当前操作。