小红花·文摘

本文提出了一种新型音频描述模型，利用预训练模型生成高质量的电影音频描述，解决了上下文依赖和数据不足的问题。同时，开发了MM-Narrator系统，能够在长视频中生成准确描述，并在多个评估指标上优于现有方法。此外，研究探讨了多模态技术在广告视频分析中的应用，提升了对广告内容的理解。