手术数据中语义分割的 RGB-D 融合的再思考
原文中文,约200字,阅读约需1分钟。发表于: 。通过视觉转换器(Vision Transformers,ViTs)架构构建了一种简单而有效的多模态(RGB 和深度)训练框架 SurgDepth,用于手术场景理解中的语义分割任务,并在各种公开数据集上展示出最先进的结果。
本论文介绍了使用深度相机对开放手术技能进行自动评估的新方法,并通过比较深度相机和 RGB 相机的结果,证明了深度相机在手术技能评估中的潜力。研究还发现,深度相机在物体检测和动作分割方面取得了可比较的结果,并强调了深度相机提供更准确的手部运动表示的优势。这项研究对于推动外科技能评估领域的发展具有重要意义,并为未来的研究奠定了基础。