量子位 ·

浙大团队破解多模态模型「盲目自信」：先校准置信度，再分配算力丨CVPR’26

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

浙江大学与阿里巴巴等团队研究发现，多模态大模型在视觉推理中存在“盲目自信”现象，即在图像质量下降时仍保持高置信度。为解决此问题，提出CA-TTS框架，通过置信度校准和资源分配优化推理效果。实验表明，该方法在多个视觉推理基准上显著提升准确率，强调了先感知后推理的重要性。

🎯

🔎

多模态大模型在视觉推理中表现出的“盲目自信”现象，可能导致严重的误判。这种现象在图像质量下降时仍保持高置信度，可能在实际应用中引发错误决策，尤其是在高风险场景下。因此，理解并解决这一问题至关重要。

CA-TTS框架通过置信度校准和资源分配优化，显著提升了视觉推理的准确性。这一方法不仅提高了模型的自我评估能力，还通过多阶段验证机制增强了推理的可靠性，展示了在复杂任务中更有效的决策过程。

研究强调了从“先推理后感知”到“先感知后推理”的重要性。这一转变意味着在进行推理之前，模型需要首先准确感知视觉信息的质量变化，从而避免在不可靠的基础上做出决策。这一思路为未来多模态模型的设计提供了新的方向。

❓

多模态大模型在视觉推理中，即使图像质量下降，仍保持高置信度，这种现象被称为“盲目自信”。

CA-TTS框架通过置信度校准和资源分配优化推理效果，提升模型对视觉证据变化的敏感性。

CDRL模块通过强化学习校准模型的自我评估能力，使置信度与视觉证据相匹配。

CA-TTS在多个视觉推理基准上显著提升准确率，平均超越现有最优方法8.8%。

“感知钝化”指的是模型对视觉信息质量变化缺乏敏感性，即使视觉证据明显退化，置信度仍维持高位。

CA-TTS框架的推理阶段包含自一致性、自反思和自检查三个模块。

🏷️