💡
原文中文,约4000字,阅读约需10分钟。
📝
内容提要
FoundationStereo是一种用于立体深度估计的基础模型,具有强大的零样本泛化能力。通过构建100万对合成立体图像,并结合自筛选流程和创新网络架构,显著提升了模型的鲁棒性和精度,设立了新标准。该模型在多个排行榜上表现优异,相关代码已开源。
🎯
关键要点
- FoundationStereo是一种用于立体深度估计的基础模型,具有强大的零样本泛化能力。
- 通过构建100万对合成立体图像,提升了模型的鲁棒性和精度,设立了新标准。
- 相关论文获得CVPR 2025满分评审,代码已开源。
- FoundationStereo在多个排行榜上表现优异,如Middlebury和ETH3D。
- 模型无需目标域微调即可在多样场景中实现高精度深度估计。
- 构建了包含100万立体图像对的高保真合成数据集,提升数据质量。
- 提出侧调谐适配器(STA),结合单目深度估计模型与CNN特征,缓解域差距。
- 采用轴向平面卷积(APC)和视差Transformer(DT)增强长程上下文推理能力。
- 在Middlebury、ETH3D等基准上超越微调模型,刷新记录。
- 通过自筛选流程剔除模糊样本,提升数据质量和模型性能。
- 团队来自英伟达研究院,研究方向为机器人感知和3D视觉。
➡️