SGIFormer:用于三维实例分割的语义引导和几何增强交叉 Transformer

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

介绍了一种名为S^2Former-OR的新型变压器框架,用于手术室中的场景图生成,通过多视角的2D场景和3D点云生成场景图,具有较低的计算成本,提高了精度并减少了模型参数。

🎯

关键要点

  • 介绍了一种名为S^2Former-OR的新型单阶段双模态变压器框架。
  • 该框架用于手术室中的场景图生成,采用多视角的2D场景和3D点云。
  • 引入视图同步转运方案,促进多视角视觉信息的交互。
  • 设计几何视觉凝聚操作,将2D语义特征与3D点云特征整合。
  • 提出关系敏感变压器解码器,直接预测实体对关系的图生成。
  • 在4D手术室基准测试中,S^2Former-OR表现出卓越的场景图生成性能。
  • 与当前OR-SGG方法相比,S^2Former-OR提高了3%的精度,减少了24.2M的模型参数。
  • 与通用单阶段SGG方法的全面评估显示,S^2Former-OR始终获得更好的性能。
  • 代码将提供。
➡️

继续阅读