PF-LRM:用于联合姿态和形状预测的无姿态大型重建模型
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
我们提出了一种无姿势大重建模型(PF-LRM),可以从少数非姿势图像中重建三维物体,同时在单个A100 GPU上估计相机姿势,仅需约1.3秒。PF-LRM利用自注意力块在三维物体标记和二维图像标记之间交换信息,具有强大的泛化能力,并在未见评估数据集上超越基线方法。模型适用于下游文本/图像到三维任务,并具有快速的前馈推理。
🎯
关键要点
- 提出了一种无姿势大重建模型(PF-LRM),可以从少数非姿势图像中重建三维物体。
- 模型在单个A100 GPU上估计相机姿势,仅需约1.3秒。
- PF-LRM利用自注意力块在三维物体标记和二维图像标记之间交换信息,具有强大的泛化能力。
- 在未见评估数据集上,PF-LRM在姿势预测准确性和三维重建质量上超越基线方法。
- 模型适用于下游文本/图像到三维任务,并具有快速的前馈推理。
➡️