本研究提出EndoVLA模型,旨在解决传统内窥镜操作中对异常区域追踪能力不足和手动调优负担重的问题。该模型结合内窥镜图像与医生提示,整合视觉、语言和运动规划,采用双阶段策略,显著提升追踪性能和零样本泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。