浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

💡 原文中文,约4300字,阅读约需11分钟。
📝

内容提要

浙江大学与阿里巴巴等团队研究发现,多模态大模型在视觉推理中存在“盲目自信”现象,即在图像质量下降时仍保持高置信度。为解决此问题,提出CA-TTS框架,通过置信度校准和资源分配优化推理效果。实验表明,该方法在多个视觉推理基准上显著提升准确率,强调了先感知后推理的重要性。

🎯

关键要点

  • 浙江大学与阿里巴巴等团队发现多模态大模型在视觉推理中存在“盲目自信”现象,图像质量下降时仍保持高置信度。

  • 为解决这一问题,提出CA-TTS框架,通过置信度校准和资源分配优化推理效果。

  • CA-TTS在多个视觉推理基准上显著提升准确率,平均超越现有最优方法8.8%。

  • 研究团队定义“感知钝化”,即模型对视觉信息质量变化缺乏敏感性。

  • CDRL模块通过强化学习校准模型的自我评估能力,使置信度与视觉证据相匹配。

  • CA-TTS将校准后的置信度转化为推理阶段的调度信号,包含自一致性、自反思和自检查三个模块。

  • 实验结果显示,CA-TTS在四个主流视觉推理基准上全面领先,尤其在Math-Vision上准确率几乎翻倍。

  • CA-TTS的扩展效率显著高于传统方法,重新定义了test-time scaling的效率上限。

  • 该研究提出从“先推理后感知”转向“先感知后推理”的新思路,强调模型需对视觉证据变化敏感。

🔎

延伸解读

盲目自信的风险

多模态大模型在视觉推理中表现出的“盲目自信”现象,可能导致严重的误判。这种现象在图像质量下降时仍保持高置信度,可能在实际应用中引发错误决策,尤其是在高风险场景下。因此,理解并解决这一问题至关重要。

CA-TTS框架的创新

CA-TTS框架通过置信度校准和资源分配优化,显著提升了视觉推理的准确性。这一方法不仅提高了模型的自我评估能力,还通过多阶段验证机制增强了推理的可靠性,展示了在复杂任务中更有效的决策过程。

从感知到推理的转变

研究强调了从“先推理后感知”到“先感知后推理”的重要性。这一转变意味着在进行推理之前,模型需要首先准确感知视觉信息的质量变化,从而避免在不可靠的基础上做出决策。这一思路为未来多模态模型的设计提供了新的方向。

延伸问答

多模态大模型的“盲目自信”现象是什么?

多模态大模型在视觉推理中,即使图像质量下降,仍保持高置信度,这种现象被称为“盲目自信”。

CA-TTS框架是如何解决盲目自信问题的?

CA-TTS框架通过置信度校准和资源分配优化推理效果,提升模型对视觉证据变化的敏感性。

CDRL模块在CA-TTS框架中起什么作用?

CDRL模块通过强化学习校准模型的自我评估能力,使置信度与视觉证据相匹配。

CA-TTS在视觉推理基准上的表现如何?

CA-TTS在多个视觉推理基准上显著提升准确率,平均超越现有最优方法8.8%。

研究团队提出的“感知钝化”是什么意思?

“感知钝化”指的是模型对视觉信息质量变化缺乏敏感性,即使视觉证据明显退化,置信度仍维持高位。

CA-TTS框架的推理阶段包含哪些模块?

CA-TTS框架的推理阶段包含自一致性、自反思和自检查三个模块。

🏷️

标签

➡️

继续阅读