SGIFormer:用于三维实例分割的语义引导和几何增强交叉 Transformer
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
介绍了一种名为S^2Former-OR的新型变压器框架,用于手术室中的场景图生成,通过多视角的2D场景和3D点云生成场景图,具有较低的计算成本,提高了精度并减少了模型参数。
🎯
关键要点
- 介绍了一种名为S^2Former-OR的新型单阶段双模态变压器框架。
- 该框架用于手术室中的场景图生成,采用多视角的2D场景和3D点云。
- 引入视图同步转运方案,促进多视角视觉信息的交互。
- 设计几何视觉凝聚操作,将2D语义特征与3D点云特征整合。
- 提出关系敏感变压器解码器,直接预测实体对关系的图生成。
- 在4D手术室基准测试中,S^2Former-OR表现出卓越的场景图生成性能。
- 与当前OR-SGG方法相比,S^2Former-OR提高了3%的精度,减少了24.2M的模型参数。
- 与通用单阶段SGG方法的全面评估显示,S^2Former-OR始终获得更好的性能。
- 代码将提供。
🏷️
标签
➡️