本研究提出了一种模块化视觉对比解码(MVCD)框架,旨在提升大型语言模型(LLMs)在多模态任务中的表现。MVCD通过利用LLMs的上下文学习能力,有效提高了视觉感知能力和模型准确性,展现出重要的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。