MVGamba:将 3D 内容生成统一为状态空间序列建模
原文中文,约400字,阅读约需1分钟。发表于: 。MVGamba 是一个通用而轻量级的高斯重建模型,通过基于 RNN 类似的状态空间模型 (SSM) 的多视角高斯重建器,来解决现有高斯重建模型中存在的多视角不一致和模糊纹理问题,并与多视图扩散模型集成,统一了从单一图像、稀疏图像或文本提示的 3D 生成任务,实验证明 MVGamba 在所有 3D 内容生成场景中优于现有基准模型,并且仅需要约 0.1 倍的模型大小。
GS-LRM是一个可扩展的大型重建模型,能够在单个A100 GPU上从2-4个稀疏图像中预测高质量的3D高斯原语,并在0.23秒内完成。该模型采用了基于transformer的简单架构,能够处理不同尺度和复杂性的场景。在Objaverse和RealEstate10K上进行训练后,该模型在对象和场景捕捉方面表现更好。