AsymFormer:面向移动平台的异模态不对称交叉表示学习实时 RGB-D 语义分割

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文提出了一种名为AsymFormer的新型网络,用于实现实时RGB-D语义分割。该网络通过优化计算资源分配和引入非对称骨干网络,对冗余参数进行了最小化,以实现多模态特征的有效融合。在NYUv2和SUNRGBD数据集上评估该方法,AsymFormer在NYUv2上实现了52.0%的mIoU,在SUNRGBD上实现了49.1%的mIoU。在RTX3090上实现了65 FPS的推理速度,在实施混合精度量化后,达到了令人印象深刻的79 FPS的推理速度。

🎯

关键要点

  • 提出了一种名为AsymFormer的新型网络,用于实时RGB-D语义分割。
  • 通过优化计算资源分配和引入非对称骨干网络,最小化冗余参数,实现多模态特征的有效融合。
  • 在NYUv2和SUNRGBD数据集上评估,AsymFormer在NYUv2上实现52.0%的mIoU,在SUNRGBD上实现49.1%的mIoU。
  • 在RTX3090上实现65 FPS的推理速度,实施混合精度量化后达到79 FPS。
  • AsymFormer在RGB-D语义分割中实现高准确度和高效性之间的平衡,显著优于现有多模态方法。
➡️

继续阅读