基于SO(2)等变高斯雕刻网络的单视图三维重建

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

GS-LRM是一个可扩展的大型重建模型,使用单个A100 GPU从2-4个稀疏图像中预测高质量的3D高斯原语,并在0.23秒内完成。该模型采用基于transformer的架构,适用于不同尺度和复杂性的场景。GS-LRM在对象和场景捕捉方面优于现有方法,并在下游3D生成任务中展示了应用。

🎯

关键要点

  • GS-LRM是一个可扩展的大型重建模型,能够在单个A100 GPU上从2-4个稀疏图像中预测高质量的3D高斯原语。
  • 该模型在0.23秒内完成预测,采用基于transformer的架构。
  • GS-LRM通过分块处理输入图像,并使用transformer块传递多视图图像令牌,解码每像素的高斯参数以进行可微渲染。
  • 与低秩模型不同,GS-LRM能够处理不同尺度和复杂性的场景,预测每像素的高斯分布。
  • 模型在对象和场景捕捉方面优于现有方法,并在Objaverse和RealEstate10K数据集上训练表现更好。
  • GS-LRM在下游3D生成任务中展示了应用潜力。
➡️

继续阅读