共享信息引导的极端多模态摘要转换器

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了MAST,一种利用文本、音频和视频三种模态信息的多模态抽象文本摘要模型。MAST通过更关注文本模态来解决从音频模态中提取信息的挑战,并在How2数据集上取得了优于目前最佳模型的结果。

🎯

关键要点

  • 本文提出了MAST,一种新的多模态抽象文本摘要模型。

  • MAST利用文本、音频和视频三种模态的信息。

  • MAST通过关注文本模态来解决从音频模态中提取信息的挑战。

  • 在How2数据集上,MAST的内容F1分数为2.51,Rouge-L分数为1.00。

  • MAST的表现优于目前基于视频和文本的最佳模型。

➡️

继续阅读