UMono: 物理模型引导的混合 CNN-Transformer 框架用于水下单目深度估计

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了两种高效且轻量级的编码器-解码器网络结构,用于实时深度估计。这些网络在嵌入式系统上具有较低的计算复杂性和延迟,并且在单个RGB图像上能够达到先进深度估计作品的准确性。

🎯

关键要点

  • 提出了两种高效且轻量级的编码器-解码器网络结构:RT-MonoDepth 和 RT-MonoDepth-S。
  • 旨在降低嵌入式系统上的计算复杂性和延迟,实现实时深度估计。
  • 在单个RGB图像上,能够达到类似于先前最先进深度估计作品的准确性。
  • RT-MonoDepth 和 RT-MonoDepth-S 在 NVIDIA Jetson Nano 上的运行速度为 18.4 和 30.5 FPS。
  • 在 NVIDIA Jetson AGX Orin 上的运行速度为 253.0 和 364.1 FPS。
  • 在 KITTI 数据集上达到了相对最先进的准确性。
  • 在准确性和最快推断速度方面达到了最好的水平。
➡️

继续阅读