小红花·文摘

本文介绍了DL3DV-10K数据集，包含来自10,510个视频的51.2百万帧，涵盖65种场景。研究评估了最新的NVS方法，强调了大规模数据集在学习三维表示中的重要性。同时，提出了ZeroNVS模型，成功解决了复杂场景下的新视图合成问题，表现优异。