LLaVA-Surg:通过结构化外科视频学习迈向多模态外科助手
原文中文,约2500字,阅读约需6分钟。发表于: 。本研究针对现有外科视频缺乏理解与对话能力的问题,提出了一个新颖的解决方案。通过构建包含102,000个外科视频-指令对的新数据集Surg-QA,并采用两阶段问答生成管道,显著提高了外科视频的多模态对话能力。研究成果表明,LLaVA-Surg在开放式外科视频问答任务中,性能明显超越之前的模型,显示出卓越的多模态对话能力。
本研究通过构建新数据集Surg-QA,包含102,000个外科视频-指令对,并采用两阶段问答生成管道,提高了外科视频的多模态对话能力。研究结果显示,LLaVA-Surg在开放式外科视频问答任务中性能明显超越之前的模型,展现出卓越的多模态对话能力。