小红花·文摘

本文研究了多源建模在视频摘要提取中的应用，提出了多模态生成器DIM和MAST模型，结合视频、音频和文本信息生成高质量摘要。实验结果表明，这些方法在多模态摘要任务中表现优越，显著提升了摘要质量。