机器之心 ·

CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

FoundationStereo是一种用于立体深度估计的基础模型，具有强大的零样本泛化能力。通过构建100万对合成立体图像，并结合自筛选流程和创新网络架构，显著提升了模型的鲁棒性和精度，设立了新标准。该模型在多个排行榜上表现优异，相关代码已开源。

🎯

🔎

FoundationStereo模型的零样本泛化能力意味着它可以在未见过的场景中进行高精度的深度估计。这一特性使得该模型在实际应用中更加灵活，尤其是在复杂环境下，如室内外场景或具有反射和透明物体的情况，能够减少对目标域微调的依赖。

FoundationStereo通过构建包含100万对立体图像的高保真合成数据集，显著提升了模型的鲁棒性和精度。自筛选流程的引入，确保了数据质量，剔除了模糊样本，这对于训练深度学习模型至关重要，因为高质量的数据直接影响模型的性能和泛化能力。

该模型采用了侧调谐适配器（STA）和轴向平面卷积（APC）等创新技术，增强了长程上下文推理能力。这些技术的结合使得FoundationStereo在多个基准测试中超越了传统微调模型，刷新了记录，展示了新方法在深度估计领域的潜力。

❓

FoundationStereo是一种用于立体深度估计的基础模型，具有强大的零样本泛化能力，能够在多样场景中实现高精度深度估计，无需目标域微调。

通过构建100万对合成立体图像的高保真合成数据集，并结合自筛选流程去除模糊样本，显著提升了模型的鲁棒性和精度。

FoundationStereo在Middlebury和ETH3D等多个排行榜上表现优异，刷新了相关记录。

侧调谐适配器（STA）将单目深度估计模型的几何先验与CNN特征结合，显著缓解合成到真实的域差距，提升模型的匹配能力。

FoundationStereo的相关代码和数据集已开源，用户可以在GitHub上找到相关资源。

该论文的研究团队来自英伟达研究院，研究方向为机器人感知和3D视觉。

🏷️