共享信息引导的极端多模态摘要转换器
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了MAST,一种利用文本、音频和视频三种模态信息的多模态抽象文本摘要模型。MAST通过更关注文本模态来解决从音频模态中提取信息的挑战,并在How2数据集上取得了优于目前最佳模型的结果。
🎯
关键要点
-
本文提出了MAST,一种新的多模态抽象文本摘要模型。
-
MAST利用文本、音频和视频三种模态的信息。
-
MAST通过关注文本模态来解决从音频模态中提取信息的挑战。
-
在How2数据集上,MAST的内容F1分数为2.51,Rouge-L分数为1.00。
-
MAST的表现优于目前基于视频和文本的最佳模型。
➡️