故事讲述者:通过全局视听角色识别改善长视频描述
原文中文,约300字,阅读约需1分钟。发表于: 。本研究探讨了现有大型视觉语言模型在处理长视频描述时的局限性,特别是情节一致性问题。作者提出了一种名为StoryTeller的系统,通过音视频角色识别结合多个模态,对长视频进行密集描述,显著提高了描述的一致性。实验结果显示,StoryTeller在视频描述任务中表现优异,相较于最强基线模型提高了9.5%的准确率,且在评估中获得了明显的人工评比优势。
本研究探讨了大型视觉语言模型在长视频描述中的局限性,提出了StoryTeller系统,通过音视频角色识别提高描述一致性,实验结果显示准确率提升了9.5%。