量子位 ·

让大模型多模态检索全面超越SOTA！ReCALL框架化解生成式与判别式的范式冲突｜CVPR’26

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

ReCALL框架通过“诊断-生成-校准”闭环解决了多模态大模型在检索中的范式冲突，提升了细粒度推理能力，显著提高了组合图像检索的性能，标志着大模型向下游任务迁移的新阶段。

🎯

🔎

多模态大模型在检索任务中面临的范式冲突，导致了生成式模型在转变为判别式检索器时的能力退化。这种现象不仅影响了模型的准确性，还使得原本能够轻松解决的问题变得复杂化，反映出当前技术在应用中的局限性。

ReCALL框架通过‘诊断-生成-校准’的闭环设计，成功解决了多模态大模型在检索中的能力退化问题。这一创新不仅提升了细粒度推理能力，还为大模型在下游任务的适配提供了新的思路，标志着技术发展的重要进步。

ReCALL在CIRR和FashionIQ等基准测试中刷新了SOTA性能，显示出其在细粒度检索能力上的显著提升。这一成果不仅证明了框架的有效性，也为未来多模态大模型的应用提供了强有力的支持，值得行业关注。

❓

ReCALL框架的核心思想是通过'诊断-生成-校准'闭环来解决多模态大模型在检索中的范式冲突。

ReCALL框架通过自我诊断和生成校正，利用原生推理信号纠正检索空间中的盲区，从而提升细粒度推理能力。

在CIRR和FashionIQ等主流基准测试中，ReCALL刷新了SOTA性能，R@1达到了55.52%的新高。

生成式大模型在检索中出现能力退化是由于范式冲突，强行将其改造成判别式检索器导致的。

ReCALL框架的四个阶段是基础检索适配、自我诊断、生成校正和针对性打磨。

ReCALL框架通过保留原生推理能力，并利用诊断和生成的过程来修复范式冲突，从而实现生成与判别的和解。

🏷️