MVGamba:将 3D 内容生成统一为状态空间序列建模

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

GS-LRM是一个可扩展的大型重建模型,能够在单个A100 GPU上从2-4个稀疏图像中预测高质量的3D高斯原语,并在0.23秒内完成。该模型采用了基于transformer的简单架构,能够处理不同尺度和复杂性的场景。在Objaverse和RealEstate10K上进行训练后,该模型在对象和场景捕捉方面表现更好。

🎯

关键要点

  • GS-LRM是一个可扩展的大型重建模型,能够在单个A100 GPU上从2-4个稀疏图像中预测高质量的3D高斯原语。
  • 该模型在0.23秒内完成预测,采用了基于transformer的简单架构。
  • GS-LRM通过分块处理输入图像,利用transformer块传递多视图图像令牌,解码每像素的高斯参数以进行可微渲染。
  • 与低秩模型不同,GS-LRM能够处理不同尺度和复杂性的场景,预测每像素的高斯分布。
  • 模型在Objaverse和RealEstate10K上进行训练,表现优于现有的最先进方法。
  • GS-LRM还展示了在下游3D生成任务中的应用。
➡️

继续阅读