TripoSR:快速从单张图像重建三维对象

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

我们提出了一个大规模重建模型(LRM),可以在5秒内从单个输入图像预测对象的3D模型。该模型采用了一个高度可扩展的基于transformer的架构,并在包含大约100万个对象的海量多视图数据上进行了训练。该模型具有很强的通用性,并能够生成高质量的3D重建结果。

🎯

关键要点

  • 提出了第一个大规模重建模型 (LRM),能够在5秒内从单个输入图像预测3D模型。
  • LRM采用高度可扩展的基于transformer的架构,具有5亿个可学习参数。
  • 模型能够直接从输入图像预测神经辐射场(NeRF)。
  • 在包含约100万个对象的海量多视图数据上进行端到端训练。
  • 结合高容量模型和大规模训练数据,使得模型具有强通用性。
  • 能够从各种测试输入生成高质量的3D重建结果,包括真实世界的图像。
  • 提供视频演示和可交互的3D网格链接。
➡️

继续阅读