浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

💡 原文中文,约4300字,阅读约需11分钟。
📝

内容提要

浙江大学与阿里巴巴等团队研究发现,多模态大模型在视觉推理中存在“盲目自信”现象,即在图像质量下降时仍保持高置信度。为解决此问题,提出CA-TTS框架,通过置信度校准和资源分配优化推理效果。实验表明,该方法在多个视觉推理基准上显著提升准确率,强调了先感知后推理的重要性。

🎯

关键要点

  • 浙江大学与阿里巴巴等团队发现多模态大模型在视觉推理中存在“盲目自信”现象,图像质量下降时仍保持高置信度。
  • 为解决这一问题,提出CA-TTS框架,通过置信度校准和资源分配优化推理效果。
  • CA-TTS在多个视觉推理基准上显著提升准确率,平均超越现有最优方法8.8%。
  • 研究团队定义“感知钝化”,即模型对视觉信息质量变化缺乏敏感性。
  • CDRL模块通过强化学习校准模型的自我评估能力,使置信度与视觉证据相匹配。
  • CA-TTS将校准后的置信度转化为推理阶段的调度信号,包含自一致性、自反思和自检查三个模块。
  • 实验结果显示,CA-TTS在四个主流视觉推理基准上全面领先,尤其在Math-Vision上准确率几乎翻倍。
  • CA-TTS的扩展效率显著高于传统方法,重新定义了test-time scaling的效率上限。
  • 该研究提出从“先推理后感知”转向“先感知后推理”的新思路,强调模型需对视觉证据变化敏感。

延伸问答

多模态大模型的“盲目自信”现象是什么?

多模态大模型在视觉推理中,即使图像质量下降,仍保持高置信度,这种现象被称为“盲目自信”。

CA-TTS框架是如何解决盲目自信问题的?

CA-TTS框架通过置信度校准和资源分配优化推理效果,提升模型对视觉证据变化的敏感性。

CDRL模块在CA-TTS框架中起什么作用?

CDRL模块通过强化学习校准模型的自我评估能力,使置信度与视觉证据相匹配。

CA-TTS在视觉推理基准上的表现如何?

CA-TTS在多个视觉推理基准上显著提升准确率,平均超越现有最优方法8.8%。

研究团队提出的“感知钝化”是什么意思?

“感知钝化”指的是模型对视觉信息质量变化缺乏敏感性,即使视觉证据明显退化,置信度仍维持高位。

CA-TTS框架的推理阶段包含哪些模块?

CA-TTS框架的推理阶段包含自一致性、自反思和自检查三个模块。

➡️

继续阅读