量子位 ·

谢赛宁苏昊CVPR25获奖！华人博士王建元一作拿下最佳论文

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

在CVPR 2025大会上，华人博士王建元的论文《VGGT: Visual Geometry Grounded Transformer》获得最佳论文奖，提出了一种高效预测3D场景信息的新型Transformer模型。谢赛宁和苏昊则因其在计算机视觉领域的贡献获得青年学者奖。

🎯

关键要点

华人博士王建元的论文《VGGT: Visual Geometry Grounded Transformer》在CVPR 2025大会上获得最佳论文奖。
谢赛宁和苏昊因其在计算机视觉领域的贡献获得青年学者奖。
最佳论文奖仅有一篇，VGGT是首个能在单次前馈中端到端预测完整3D场景信息的大型Transformer。
VGGT采用交替“全局-帧内”自注意力机制，性能超越多项现有几何或深度学习方法。
最佳学生论文为《Neural Inverse Rendering from Propagating Light》，提出了一种基于物理模型的神经逆向渲染方法。
最佳论文荣誉提名包括四篇论文，涵盖了动态视频、导航模型和视觉-语言模型等领域。
MegaSaM系统能够从动态场景的普通单目视频中准确、快速地估计相机参数和深度图。
Navigation World Models提出了一种可控的视频生成模型，能够预测未来的视觉观测。
Molmo模型是一个新的视觉-语言模型家族，具有72亿参数规模，超越了现有开源模型。
3D Student Splatting and Scooping提出了一种新型混合模型，具有更强的表达能力和优化方法。

❓

延伸问答

王建元的论文《VGGT: Visual Geometry Grounded Transformer》有什么创新之处？

该论文提出了一种新型Transformer模型，能够在单次前馈中端到端预测完整3D场景信息，超越了多项现有几何或深度学习方法。

CVPR 2025大会上有哪些重要奖项？

最佳论文奖由王建元的《VGGT》获得，青年学者奖颁给谢赛宁和苏昊，最佳学生论文为《Neural Inverse Rendering from Propagating Light》。

《VGGT》模型的工作机制是什么？

VGGT采用交替的全局-帧内自注意力机制，能够处理多帧图像信息，同时保持单帧细节，且不依赖几何归纳偏置。

青年学者奖的评选标准是什么？

青年学者奖面向获得博士学位不超过7年的早期研究工作者，表彰他们在计算机视觉领域的杰出研究贡献。

《Neural Inverse Rendering from Propagating Light》论文的核心内容是什么？

该论文提出了一种基于物理模型的神经逆向渲染方法，用于从多视角激光雷达数据中重建场景几何和材质。

CVPR 2025的最佳论文提名有哪些？

最佳论文荣誉提名包括四篇论文，涉及动态视频、导航模型和视觉-语言模型等领域。

🏷️

继续阅读

五篇清晰解释大型语言模型的有趣论文
本文介绍了五篇关于大型语言模型（LLMs）的重要论文，涵盖其核心概念和技术。首先是“Attention Is All You Need”，提出了Trans...
苹果本周将在德克萨斯州推出年龄验证功能
苹果将在德克萨斯州推出年龄验证功能，用户在创建新账户时需确认年龄超过18岁。这是因德州的应用商店责任法案生效所致。未满18岁的用户需加入家庭共享组，家长需...
外壳的铸造 — v5的诞生
文章讨论了v5的诞生过程，描述了旧服务器的迁移与更新。团队通过483次提交逐步改进系统，保持了连续性。对比旧版与新版，揭示了数据结构的变化和命名的困惑，强...
WiiM通过新款音响条扩展其全屋生态系统
WiiM公司推出首款家庭影院音响WiiM Bar，售价479美元。该音响支持3.0.2 Atmos配置，配备八个驱动单元，可扩展至3.1.2或5.1.2系...
通过玩“战舰”教人工智能代理提出更好的问题
麻省理工学院的研究显示，小型人工智能模型在经典游戏“战舰”中表现优于大型模型，成本仅为其1%。研究指出，通过改进模型的提问能力和使用蒙特卡罗推理策略，可以...
托德·马乔弗因在音乐和技术领域的贡献而获得乔治·皮博迪奖
托德·马乔弗将获得乔治·皮博迪奖，以表彰他在美国音乐和舞蹈领域的杰出贡献。他是麻省理工学院媒体实验室的教授，以其在参与性歌剧、人工智能和创意技术方面的开创性工作而闻名。