小红花·文摘

提出了一种利用GPT-4进行多模态上下文学习的新系统MM-Narrator，用于音频描述的生成。该系统通过记忆增强生成过程，在自回归方式下生成准确的音频描述。实验结果表明，MM-Narrator在大多数情况下优于现有方法，在评估指标下得分更高。同时引入了基于片段的重复文本生成评估器。