提出了一种利用GPT-4进行多模态上下文学习的新系统MM-Narrator,用于音频描述的生成。该系统通过记忆增强生成过程,在自回归方式下生成准确的音频描述。实验结果表明,MM-Narrator在大多数情况下优于现有方法,在评估指标下得分更高。同时引入了基于片段的重复文本生成评估器。
提出了一种利用GPT-4进行多模态上下文学习的新系统MM-Narrator,用于音频描述的生成。该系统通过记忆增强生成过程,能够生成准确的音频描述,即使是超过数小时的长视频。实验结果表明,MM-Narrator在大多数情况下都优于现有的方法,在评估指标下得分更高。同时引入了基于片段的重复文本生成评估器。
完成下面两步后,将自动完成登录并继续当前操作。