EndoVLA: A Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出EndoVLA模型,旨在解决传统内窥镜操作中对异常区域追踪能力不足和手动调优负担重的问题。该模型结合内窥镜图像与医生提示,整合视觉、语言和运动规划,采用双阶段策略,显著提升追踪性能和零样本泛化能力。

🎯

关键要点

  • EndoVLA模型旨在解决传统内窥镜操作中对异常区域追踪能力不足的问题。
  • 该模型结合内窥镜图像与医生提示,整合视觉、语言和运动规划。
  • EndoVLA采用双阶段策略,以应对数据稀缺和领域转移。
  • 模型显著提升了内窥镜中的追踪性能和零样本泛化能力。
➡️

继续阅读