美团技术团队 ·

ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

计算机视觉国际大会（ICCV）是顶级会议之一，专注于视频理解和多模态推理，涵盖时间表示、实时对话生成和视觉大语言模型等研究，推动了计算机视觉领域的发展。

🎯

🔎

ICCV 2025的多模态推理竞赛聚焦于复杂任务的推理能力，强调了大语言模型与视觉模型的结合。这种结合不仅推动了技术的进步，也带来了新的挑战，尤其是在数据合成和模型训练方面。参赛团队需在没有官方训练数据的情况下，创新性地构建高质量的数据集，以提升模型的表现。

美团团队在ICCV 2025的多模态推理挑战赛中表现突出，获得多个奖项。这表明团队在视觉定位和空间感知等领域的技术实力，尤其是通过信噪比驱动的数据合成和多阶段训练框架，提升了模型的性能。这为其他研究团队提供了宝贵的经验，强调了数据质量和训练策略的重要性。

随着多模态大模型的快速发展，未来的研究可以关注如何更好地整合视觉和语言信息，以提升模型在复杂场景中的理解能力。特别是在处理动态和实时对话生成等任务时，如何优化模型的推理策略和数据处理流程，将是关键的研究方向。

❓

ICCV会议主要关注视频理解和多模态推理。

DisTime框架旨在增强视频大型语言模型的时间理解能力，解决时间定位的挑战。

美团团队在ICCV 2025中获得了真实场景视觉定位的冠军、空间感知视觉问答的季军和创意广告视频视觉推理的季军。

MVP-LM框架融合了多粒度、多功能的感知任务，支持基于词语和基于句子的感知任务整合。

ICCV 2025的多模态推理竞赛设立了真实场景视觉定位、空间感知视觉问答和创意广告视频视觉推理三个挑战。

ARIG框架通过基于自回归的逐帧生成和上下文理解，提升了实时对话生成的交互真实感。

🏷️