小红花·文摘

本研究提出了一种模块化视觉对比解码（MVCD）框架，旨在提升大型语言模型（LLMs）在多模态任务中的表现。MVCD通过利用LLMs的上下文学习能力，有效提高了视觉感知能力和模型准确性，展现出重要的应用潜力。