CarcassFormer: 一种基于 Transformer 的家禽屠体缺陷的同时定位、分割和分类的端到端框架
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了一种新型网络AsymFormer,用于实时RGB-D语义分割。通过优化计算资源分配和引入非对称骨干网络,实现多模态特征的有效融合。使用局部关注引导特征选择(LAFS)模块,选择性地融合特征。在NYUv2和SUNRGBD数据集上评估,AsymFormer在准确度和效率方面取得了平衡。
🎯
关键要点
- RGB-D 语义分割在机器人智能领域中至关重要。
- 提出了一种新型网络 AsymFormer,专注于实时 RGB-D 语义分割。
- 通过优化计算资源分配和引入非对称骨干网络,最小化冗余参数,实现多模态特征的有效融合。
- 重新定义特征选择和提取多模态自相似特征,确保实时执行而不增加参数数量。
- 使用局部关注引导特征选择(LAFS)模块,选择性地融合不同模态之间的特征。
- 在 NYUv2 数据集上实现 52.0% 的 mIoU,在 SUNRGBD 数据集上实现 49.1% 的 mIoU。
- 在 RTX3090 上实现 65 FPS 的推理速度,混合精度量化后达到 79 FPS。
- AsymFormer 在 RGB-D 语义分割中实现了高准确度和高效性之间的平衡。
➡️