手术室场景图生成的时间动态三模态融合
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究提出了一种新的单阶段双模态变压器框架,用于手术室中的场景图生成。该方法通过视图同步转运方案,整合2D和3D视觉信息,直接预测实体对关系的图生成,具有卓越性能和较低计算成本。
🎯
关键要点
- 本研究提出了一种新颖的单阶段双模态变压器框架 S^2Former-OR,用于手术室中的场景图生成。
- 该方法以端到端的方式利用多视角的 2D 场景和 3D 点云进行场景图生成。
- 引入视图同步转运方案促进多视角视觉信息交互。
- 设计几何视觉凝聚操作将 2D 语义特征与 3D 点云特征整合。
- 提出了一种新颖的关系敏感变压器解码器,能够直接预测实体对关系的图生成。
- S^2Former-OR 在 4D 手术室基准测试中表现出卓越的场景图生成性能和较低的计算成本。
- 与当前 OR-SGG 方法相比,S^2Former-OR 提高了 3% 的精度并减少了 24.2M 的模型参数。
- 该方法在更广泛指标的通用单阶段 SGG 方法中也表现出更好的性能。
- 研究结果和代码将提供给公众。
➡️