小红花·文摘

本研究通过构建新数据集Surg-QA，包含102,000个外科视频-指令对，并采用两阶段问答生成管道，提高了外科视频的多模态对话能力。研究结果显示，LLaVA-Surg在开放式外科视频问答任务中性能明显超越之前的模型，展现出卓越的多模态对话能力。