小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了大型视觉语言模型在长视频描述中的局限性，提出了StoryTeller系统，通过音视频角色识别提高描述一致性，实验结果显示准确率提升了9.5%。

故事讲述者：通过全局视听角色识别改善长视频描述

BriefGPT - AI 论文速递 ·