时域立体匹配:超过 100 帧每秒的扩展现实视频立体匹配
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
StereoNet是一种深度学习架构,能够在NVidia Titan X上以60fps运行,产生高质量、边缘保留且无量化的视差图。该网络具有超像素匹配精度的关键洞见,比传统立体匹配方法高一个数量级,通过使用低分辨率代价体编码所需的所有信息,从而实现实时性。该方法在多个基准测试中取得了显着的结果,提供了极大的灵活性。
🎯
关键要点
-
提出了StereoNet,这是第一个端到端实时立体匹配的深度学习架构。
-
在NVidia Titan X上以60fps运行,产生高质量、边缘保留且无量化的视差图。
-
该网络具有超像素匹配精度,比传统立体匹配方法高一个数量级。
-
通过使用低分辨率代价体编码所需的所有信息,实现实时性。
-
采用学习的边缘感知上采样函数实现空间精度。
-
使用Siamese网络从左右图像提取特征。
-
在非常低的分辨率代价体中计算视差的初步估计。
-
模型通过紧凑的像素到像素细化网络分层地重新引入高频细节。
-
利用颜色输入作为指南,产生高质量的边缘感知输出。
-
在多个基准测试中取得了显着的结果,提供了极大的灵活性。
➡️