小红花·文摘

本研究介绍了一种名为S^2Former-OR的新型变压器框架，用于手术室中的场景图生成。该框架能够以端到端的方式利用多视角的2D场景和3D点云进行场景图生成。通过引入视图同步转运方案，促进多视角视觉信息交互，并设计几何视觉凝聚操作将2D语义特征与3D点云特征整合。实验证明，S^2Former-OR在4D手术室基准测试中具有卓越性能和较低计算成本。与当前的OR-SGG方法相比，提高了3%的精度并减少了24.2M的模型参数。