小红花·文摘

本研究提出了一种多模态框架，结合计算机视觉与大型语言模型，自动生成外科视频摘要，旨在改善手术文档记录、支持外科培训及术后分析。该方法在CholecT50数据集上表现优异，显示出其在外科报告中的潜在影响。