本研究提出了一种新的视觉定位任务——知识密集型视觉定位(KVG),旨在提升多模态大语言模型的视觉推理能力。通过引入DeepPerception模型和自动化数据合成框架,研究表明在KVG-Bench数据集上显著提高了准确率,推动了多模态推理的发展。
完成下面两步后,将自动完成登录并继续当前操作。