本文提出了一种新型音频描述模型,利用预训练模型生成高质量的电影音频描述,解决了上下文依赖和数据不足的问题。同时,开发了MM-Narrator系统,能够在长视频中生成准确描述,并在多个评估指标上优于现有方法。此外,研究探讨了多模态技术在广告视频分析中的应用,提升了对广告内容的理解。
完成下面两步后,将自动完成登录并继续当前操作。