本研究通过构建新数据集Surg-QA,包含102,000个外科视频-指令对,并采用两阶段问答生成管道,提高了外科视频的多模态对话能力。研究结果显示,LLaVA-Surg在开放式外科视频问答任务中性能明显超越之前的模型,展现出卓越的多模态对话能力。
介绍了CholecTrack20数据集解决外科视频中工具跟踪需求,包含多类多工具的三个视角的工具轨迹,满足手术过程中的辅助要求。
完成下面两步后,将自动完成登录并继续当前操作。