MuST:用于外科手术阶段识别的多尺度变压器

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

本文介绍了多种手术阶段识别的先进技术,包括多尺度动作分割变换器(MS-AST)、自回归手术变压器(ARST)和多级时间卷积网络(MS-TCN)。这些方法在Cholec80数据集上实现了高达96.15%的识别准确率,显著提升了手术过程的自动化和分析能力。

🎯

关键要点

  • 自动手术阶段识别是现代手术室和在线手术视频评估平台中的核心技术。
  • 多尺度动作分割变换器(MS-AST)和多尺度动作分割因果变换器(MS-ASCT)在Cholec80数据集上实现了95.26%和96.15%的识别准确率。
  • 自回归手术变压器(ARST)通过条件概率分布建模阶段间相关性,推断速率达到每秒66帧。
  • 多级时间卷积网络(MS-TCN)具有层次化预测细化和因果扩张卷积的特点,成功应用于胆囊手术视频。
  • 视频基分类器在手术阶段识别任务中优于基于图片的分类器,提供了更高的效果。
  • SurgPLAN利用金字塔慢速-快速架构和时间相位定位模块,准确稳定地识别手术阶段。
  • 长视频变压器(LoViT)通过融合短期和长期时间信息,优化了手术过程中的长视频处理。
  • SlowFast时间建模网络(SF-TMN)在Cholec80手术阶段识别任务中实现了最先进的性能表现。

延伸问答

什么是多尺度动作分割变换器(MS-AST)?

多尺度动作分割变换器(MS-AST)是一种用于手术阶段识别的技术,利用空间和时间信息,在不同尺度上建模时间信息。

ARST自回归手术变压器的主要特点是什么?

ARST通过条件概率分布建模阶段间相关性,采用一致性约束推断策略,推断速率达到每秒66帧。

在Cholec80数据集上,MS-AST和MS-ASCT的识别准确率分别是多少?

MS-AST和MS-ASCT在Cholec80数据集上的识别准确率分别为95.26%和96.15%。

视频基分类器在手术阶段识别中有什么优势?

视频基分类器相比于基于图片的分类器,提供了更高的识别效果。

多级时间卷积网络(MS-TCN)在手术阶段识别中有什么应用?

多级时间卷积网络(MS-TCN)具有层次化预测细化和因果扩张卷积的特点,成功应用于胆囊手术视频。

SlowFast时间建模网络(SF-TMN)在手术阶段识别任务中的表现如何?

SF-TMN在Cholec80手术阶段识别任务中实现了最先进的性能表现。

➡️

继续阅读