METER:用于单目深度估计的移动视觉变换器架构

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了两种高效且轻量级的编码器-解码器网络结构,用于实现实时深度估计。这些网络在嵌入式系统上降低了计算复杂性和延迟,并在单个RGB图像上达到了先进深度估计作品的准确性。实验结果表明,这些网络在NVIDIA Jetson Nano和NVIDIA Jetson AGX Orin上具有较快的推断速度,并在KITTI数据集上达到了相对最先进的准确性。

🎯

关键要点

  • 提出了两种高效且轻量级的编码器-解码器网络结构:RT-MonoDepth 和 RT-MonoDepth-S。
  • 这些网络旨在降低嵌入式系统上的计算复杂性和延迟,实现实时深度估计。
  • 在单个RGB图像上,这些网络可以达到类似于先前最先进深度估计作品的准确性。
  • RT-MonoDepth 和 RT-MonoDepth-S 在NVIDIA Jetson Nano上运行速度为18.4和30.5 FPS,在NVIDIA Jetson AGX Orin上运行速度为253.0和364.1 FPS。
  • 在KITTI数据集上,这些网络达到了相对最先进的准确性。
  • 本文在准确性和最快推断速度方面都达到了最好的水平。
➡️

继续阅读