LRM:单幅图像到 3D 的大规模重建模型

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

LRM是一个大规模重建模型,可以在5秒内从单个输入图像预测对象的3D模型。该模型采用高度可扩展的transformer架构,在包含大约100万个对象的海量多视图数据上进行端到端训练。该模型具有很强的通用性,并能够从各种测试输入中生成高质量的3D重建结果。

🎯

关键要点

  • LRM是第一个大规模重建模型,能够在5秒内从单个输入图像预测3D模型。
  • LRM采用高度可扩展的基于transformer的架构,具有5亿个可学习参数。
  • 模型直接从输入图像预测神经辐射场(NeRF)。
  • LRM在包含约100万个对象的海量多视图数据上进行端到端训练。
  • 训练数据包括Objaverse的合成渲染和MVImgNet的真实采集数据。
  • 该模型具有强大的通用性,能够生成高质量的3D重建结果。
  • 支持从各种测试输入生成3D重建,包括真实世界的野外捕捉和生成模型的图像。
➡️

继续阅读