LLM-AD: 基于大型语言模型的音频描述系统
原文中文,约400字,阅读约需1分钟。发表于: 。介绍了一个利用 GPT-4V(视觉)的自动化音频描述生成流程,通过使用现成组件实现,不需要额外训练,生成符合自然语言音频描述生产标准的音频描述,同时通过基于跟踪的字符识别模块在帧间保持上下文一致的角色信息,在 MAD 数据集上表现与基于学习的方法相当,CIDEr 得分为 20.5。
提出了一种利用GPT-4进行多模态上下文学习的新系统MM-Narrator,用于音频描述的生成。该系统通过记忆增强生成过程,在自回归方式下生成准确的音频描述。实验结果表明,MM-Narrator在大多数情况下优于现有方法,在评估指标下得分更高。同时引入了基于片段的重复文本生成评估器。