MVGamba:将 3D 内容生成统一为状态空间序列建模
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
GS-LRM是一个可扩展的大型重建模型,能够在单个A100 GPU上从2-4个稀疏图像中预测高质量的3D高斯原语,并在0.23秒内完成。该模型采用了基于transformer的简单架构,能够处理不同尺度和复杂性的场景。在Objaverse和RealEstate10K上进行训练后,该模型在对象和场景捕捉方面表现更好。
🎯
关键要点
- GS-LRM是一个可扩展的大型重建模型,能够在单个A100 GPU上从2-4个稀疏图像中预测高质量的3D高斯原语。
- 该模型在0.23秒内完成预测,采用了基于transformer的简单架构。
- GS-LRM通过分块处理输入图像,利用transformer块传递多视图图像令牌,解码每像素的高斯参数以进行可微渲染。
- 与低秩模型不同,GS-LRM能够处理不同尺度和复杂性的场景,预测每像素的高斯分布。
- 模型在Objaverse和RealEstate10K上进行训练,表现优于现有的最先进方法。
- GS-LRM还展示了在下游3D生成任务中的应用。
➡️