谢赛宁苏昊CVPR25获奖!华人博士王建元一作拿下最佳论文

💡 原文中文,约4500字,阅读约需11分钟。
📝

内容提要

在CVPR 2025大会上,华人博士王建元的论文《VGGT: Visual Geometry Grounded Transformer》获得最佳论文奖,提出了一种高效预测3D场景信息的新型Transformer模型。谢赛宁和苏昊则因其在计算机视觉领域的贡献获得青年学者奖。

🎯

关键要点

  • 华人博士王建元的论文《VGGT: Visual Geometry Grounded Transformer》在CVPR 2025大会上获得最佳论文奖。
  • 谢赛宁和苏昊因其在计算机视觉领域的贡献获得青年学者奖。
  • 最佳论文奖仅有一篇,VGGT是首个能在单次前馈中端到端预测完整3D场景信息的大型Transformer。
  • VGGT采用交替“全局-帧内”自注意力机制,性能超越多项现有几何或深度学习方法。
  • 最佳学生论文为《Neural Inverse Rendering from Propagating Light》,提出了一种基于物理模型的神经逆向渲染方法。
  • 最佳论文荣誉提名包括四篇论文,涵盖了动态视频、导航模型和视觉-语言模型等领域。
  • MegaSaM系统能够从动态场景的普通单目视频中准确、快速地估计相机参数和深度图。
  • Navigation World Models提出了一种可控的视频生成模型,能够预测未来的视觉观测。
  • Molmo模型是一个新的视觉-语言模型家族,具有72亿参数规模,超越了现有开源模型。
  • 3D Student Splatting and Scooping提出了一种新型混合模型,具有更强的表达能力和优化方法。

延伸问答

王建元的论文《VGGT: Visual Geometry Grounded Transformer》有什么创新之处?

该论文提出了一种新型Transformer模型,能够在单次前馈中端到端预测完整3D场景信息,超越了多项现有几何或深度学习方法。

CVPR 2025大会上有哪些重要奖项?

最佳论文奖由王建元的《VGGT》获得,青年学者奖颁给谢赛宁和苏昊,最佳学生论文为《Neural Inverse Rendering from Propagating Light》。

《VGGT》模型的工作机制是什么?

VGGT采用交替的全局-帧内自注意力机制,能够处理多帧图像信息,同时保持单帧细节,且不依赖几何归纳偏置。

青年学者奖的评选标准是什么?

青年学者奖面向获得博士学位不超过7年的早期研究工作者,表彰他们在计算机视觉领域的杰出研究贡献。

《Neural Inverse Rendering from Propagating Light》论文的核心内容是什么?

该论文提出了一种基于物理模型的神经逆向渲染方法,用于从多视角激光雷达数据中重建场景几何和材质。

CVPR 2025的最佳论文提名有哪些?

最佳论文荣誉提名包括四篇论文,涉及动态视频、导航模型和视觉-语言模型等领域。

➡️

继续阅读