时域立体匹配:超过 100 帧每秒的扩展现实视频立体匹配

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

StereoNet是一种深度学习架构,能够在NVidia Titan X上以60fps运行,产生高质量、边缘保留且无量化的视差图。该网络具有超像素匹配精度的关键洞见,比传统立体匹配方法高一个数量级,通过使用低分辨率代价体编码所需的所有信息,从而实现实时性。该方法在多个基准测试中取得了显着的结果,提供了极大的灵活性。

🎯

关键要点

  • 提出了StereoNet,这是第一个端到端实时立体匹配的深度学习架构。

  • 在NVidia Titan X上以60fps运行,产生高质量、边缘保留且无量化的视差图。

  • 该网络具有超像素匹配精度,比传统立体匹配方法高一个数量级。

  • 通过使用低分辨率代价体编码所需的所有信息,实现实时性。

  • 采用学习的边缘感知上采样函数实现空间精度。

  • 使用Siamese网络从左右图像提取特征。

  • 在非常低的分辨率代价体中计算视差的初步估计。

  • 模型通过紧凑的像素到像素细化网络分层地重新引入高频细节。

  • 利用颜色输入作为指南,产生高质量的边缘感知输出。

  • 在多个基准测试中取得了显着的结果,提供了极大的灵活性。

➡️

继续阅读