小红花·文摘

本研究提出了一种新的视觉定位任务——知识密集型视觉定位（KVG），旨在提升多模态大语言模型的视觉推理能力。通过引入DeepPerception模型和自动化数据合成框架，研究表明在KVG-Bench数据集上显著提高了准确率，推动了多模态推理的发展。