MM-Narrator: 多模态上下文学习中的长视频叙事
原文中文,约400字,阅读约需1分钟。发表于: 。提出了一种利用 GPT-4 进行多模态上下文学习的新系统 ——MM-Narrator,用于音频描述的生成。通过提出的记忆增强生成过程,该系统能够在自回归方式下生成准确的音频描述,即使是超过数小时的长视频。MM-Narrator 还采用复杂度为基础的演示选择策略,通过少样本的多模态上下文学习(MM-ICL)大大增强了其多步推理能力。在 MAD-eval...
提出了一种利用GPT-4进行多模态上下文学习的新系统MM-Narrator,用于音频描述的生成。该系统通过记忆增强生成过程,能够生成准确的音频描述,即使是超过数小时的长视频。实验结果表明,MM-Narrator在大多数情况下都优于现有的方法,在评估指标下得分更高。同时引入了基于片段的重复文本生成评估器。