本研究介绍了一种名为S^2Former-OR的新型变压器框架,用于手术室中的场景图生成。该框架能够以端到端的方式利用多视角的2D场景和3D点云进行场景图生成。通过引入视图同步转运方案,促进多视角视觉信息交互,并设计几何视觉凝聚操作将2D语义特征与3D点云特征整合。实验证明,S^2Former-OR在4D手术室基准测试中具有卓越性能和较低计算成本。与当前的OR-SGG方法相比,提高了3%的精度并减少了24.2M的模型参数。
完成下面两步后,将自动完成登录并继续当前操作。