量子位 ·

视频扩散模型新突破！清华腾讯联合实现高保真3D生成，告别多视图依赖

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

清华与腾讯联合研发的Scene Splatter模型基于视频扩散技术，从单张图像生成高保真3D场景，解决了几何扭曲和一致性问题。该模型通过动量引导生成多视角视频，显著提升三维场景重建效果。

🎯

关键要点

清华与腾讯联合研发的Scene Splatter模型基于视频扩散技术，从单张图像生成高保真3D场景。
该模型解决了几何扭曲和一致性问题，显著提升三维场景重建效果。
传统三维重建方法依赖多视角图像，单张图片条件下重建存在结构扭曲和缺失问题。
Scene Splatter通过动量引导生成多视角视频，增强视频细节并保持场景一致性。
模型采用级联式动量机制，结合高斯预测模型进行场景初始化和渲染。
实验表明，Scene Splatter在保持场景一致性的同时提供高质量的观察结果。
模型能够泛化到不同的相机轨迹，支持任意视角轨迹的三维探索。
消融实验显示，缺乏生成先验知识会导致模型性能下降，影响几何形状的准确性。

❓

延伸问答

Scene Splatter模型的主要创新点是什么？

Scene Splatter模型通过视频扩散技术，从单张图像生成高保真3D场景，解决了几何扭曲和一致性问题。

传统三维重建方法面临哪些挑战？

传统三维重建方法依赖多视角图像，单张图片条件下容易出现结构扭曲和缺失问题。

Scene Splatter如何提升三维场景生成效果？

Scene Splatter通过动量引导生成多视角视频，增强视频细节并保持场景一致性，从而提升生成效果。

该模型在不同相机轨迹下的表现如何？

Scene Splatter能够很好地泛化到不同的相机轨迹，支持任意视角轨迹的三维探索。

缺乏生成先验知识对模型性能的影响是什么？

缺乏生成先验知识会导致Scene Splatter性能下降，影响几何形状的准确性。

Scene Splatter模型的实验结果如何？

实验表明，Scene Splatter在保持场景一致性的同时提供高质量的观察结果，优于其他方法。

🏷️

继续阅读

从任意视角探索场景：3D体积视频技术突破意味着3D流媒体可能很快成为现实
布朗大学研究人员推出了名为PackUV的3D体积视频处理方法，旨在实现可存储、流式传输的逼真3D视频。该技术通过多台摄像机拍摄场景，并利用算法重建三维空间...
亚马逊的搜索栏将生成无法购买的AI生成产品
亚马逊更新了搜索栏，用户可以根据描述查看AI生成的服装和家居商品图片，帮助用户在记不清具体名称时找到所需商品。该功能将于安卓和iOS应用上线。
YouTube获得行业首个短视频MRC认证
YouTube连续第六年获得媒体评级委员会（MRC）的品牌安全认证，并首次将认证扩展至YouTube Shorts，成为首个获得短视频品牌安全认证的平台。...
行业财报 | 康卡斯特、迪士尼、派拉蒙、索尼音乐、环球音乐、腾讯音乐等17家媒体电影音乐公司2026年第一季度业绩汇总
2026年第一季度，康卡斯特、迪士尼、奈飞等媒体公司业绩增长。迪士尼营收251.68亿美元，同比增长7%；奈飞营收122.5亿美元，净利润52.83亿美元...
DeepSeek首轮500亿元融资细节曝光：估值4000亿，腾讯、宁德时代都来了
国内AI企业DeepSeek即将完成首轮融资，计划募资约500亿元，投资方包括腾讯和宁德时代。融资后估值预计达3500亿至4000亿元。创始人梁文锋将投入...
App+1 | 零基础 3 分钟在线搞定产品演示视频：Mockup Studio
Mockup Studio 是一个在线工具，用户可以快速制作产品展示视频，只需拖入录屏并调整样式即可导出成品。该工具简化了视频制作流程，适合开发者和产品经...