本文研究了多源建模在视频摘要提取中的应用,提出了多模态生成器DIM和MAST模型,结合视频、音频和文本信息生成高质量摘要。实验结果表明,这些方法在多模态摘要任务中表现优越,显著提升了摘要质量。
完成下面两步后,将自动完成登录并继续当前操作。