小红花·文摘

提出了一种利用GPT-4进行多模态上下文学习的新系统MM-Narrator，用于音频描述的生成。该系统通过记忆增强生成过程，能够生成准确的音频描述，即使是超过数小时的长视频。实验结果表明，MM-Narrator在大多数情况下都优于现有的方法，在评估指标下得分更高。同时引入了基于片段的重复文本生成评估器。