长序列大重建模型用于广覆盖高斯点云

本研究解决了传统模型在大场景重建中只能处理少量输入图像的瓶颈问题。我们提出的Long-LRM模型，结合现代Mamba2块与经典变换块，能够在1.3秒内处理32张960x540分辨率的图像，显著提升了处理效率与质量。实验表明，该方法在DL3DV-140和Tanks and Temples等大规模场景数据集上的表现与基于优化的方法相当，但效率提高了两个数量级。

我们提出了GS-LRM，一种可扩展的大型重建模型，可以在单个A100 GPU上快速从少量稀疏图像中预测高质量的3D高斯原语。模型采用transformer架构，通过多视图图像解码每像素的高斯参数，实现可微渲染。GS-LRM在Objaverse和RealEstate10K上表现优于现有方法，并可用于3D生成任务。

3D重建 GS-LRM transformer 可微渲染重建高斯原语