北京大学与OpenBayes等团队提出了VIRES视频重绘方法,结合草图与文本引导,实现视频主体的重绘、替换与移除,确保时间一致性并提升视频质量,已入选CVPR 2025。
2025年CVPR于6月13日公布最佳论文,收到超过4万名作者提交的13008篇论文,最终接收2872篇,接受率约22.1%。最佳论文由牛津大学与Meta AI合作提出,名为VGGT,突破了单一任务限制,能够从多个视角推断场景的三维属性,且重建速度快,性能达到SOTA级别。
CVPR 2025最佳论文由牛津大学与Meta AI合作的VGGT模型获得。该模型基于前馈Transformer架构,能够高效推断3D属性,快速重建图像,性能超越传统方法。
CVPR 2025圆满结束,中国企业积极参与,腾讯接收论文超过40篇,多模态与3D生成成为热门研究方向。展会吸引了众多观众,技术讨论深入,企业专注于成熟的商业化应用,展示技术实力与人才吸引力。
在CVPR 2025大会上,华人博士王建元的论文《VGGT: Visual Geometry Grounded Transformer》获得最佳论文奖,提出了一种高效预测3D场景信息的新型Transformer模型。谢赛宁和苏昊则因其在计算机视觉领域的贡献获得青年学者奖。
CVPR2025提出的Video-Bench框架通过模拟人类认知,评估AI生成视频的质量与美学,解决了视频与文本对齐的问题。该框架采用链式查询和少样本评分技术,显著提高了评估准确性,超越了传统方法。
本文介绍了CVPR 2025的CV4Metaverse研讨会上接受的研究,提出了SCOPE数据集和iSQoE模型,用于评估立体视觉体验质量,旨在克服现有方法的局限性。
机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
港科广团队提出的MultiGO方案通过分层建模技术,将人体分解为不同精度层级,逐步细化,成功生成高保真3D模型。该方法解决了传统单目图像重建的深度歧义问题,显著提升了细节捕捉能力,已入选CVPR 2025,适用于虚拟试衣和游戏角色生成等领域。
在CVPR 2025 NTIRE国际竞赛中,火山引擎多媒体实验室的“SharpMind”小组在短视频质量评估赛道中获胜,利用多模态大模型构建了高效的画质评价模型,实现了精度与计算效率的最佳平衡,推动了UGC视频质量评估技术的发展。
基于重建模型的PartRM方法实现了铰链物体的部件级运动建模,生成三维表征以支持机器人操控。研究表明,PartRM在生成效率和结果质量上显著提升,已被CVPR 2025录用。
Soul App的技术论文《基于自回归动作生成的实时流式音频驱动人像动画系统》在CVPR 2025会议上被接收,展示了在实时音频驱动人像动画方面的创新,提出了提高视频生成效率和自然度的方法,标志着Soul在多模态AI能力上的进展。
中山大学与南洋理工大学等团队提出了跨模态因果对齐框架(CRA),旨在提升视频问答的时空定位准确性与可解释性。CRA通过三个模块优化因果推理,克服现有模型的统计偏差问题,已在CVPR 2025接收并开源代码。
CVPR 2025研讨会将于2025年6月举行,主题为“基础模型+X”的鲁棒性挑战,关注基础模型在特定领域的应用及脆弱性。欢迎投稿,重要日期为:摘要截止3月15日,论文截止3月20日。此外,还将举办多模态大语言模型的对抗攻击竞赛,期待全球研究者参与。
理想汽车在CVPR 2025会议上发表了4篇论文,展示其在自动驾驶领域的创新。这些论文分别是StreetCrafter、DriveDreamer4D、ReconDreamer和DrivingSphere,聚焦于高保真街景生成、车辆行驶轨迹生成、动态场景修复和自动驾驶系统验证,标志着理想汽车向AI企业转型。
CVPR 2025 论文接收结果公布,共收到13008篇投稿,接收2878篇,接收率为22.1%,创历史新低。部分审稿人被指责使用大语言模型生成低质量评审,导致19篇论文被拒。CVPR会议的谷歌学术排名已升至第二,仅次于《Nature》。
2025年6月11日至15日,CVPR将在美国田纳西州召开首届计算机视觉推理扩展研讨会ViSCALE,讨论推理时计算扩展(TTS)在计算机视觉中的应用与发展,欢迎研究者提交相关论文。
完成下面两步后,将自动完成登录并继续当前操作。