小红花·文摘

本研究提出了一种音频-视觉-文本跨度定位(AVTSL)方法，解决了多语言视觉回答定位中的音频模态问题。实验结果表明，该方法性能优于多种先进技术，强调了音频模态的重要性。

BriefGPT - AI 论文速递 ·

本文介绍了MAST，一种利用文本、音频和视频三种模态信息的多模态抽象文本摘要模型。MAST通过更关注文本模态来解决从音频模态中提取信息的挑战，并在How2数据集上取得了优于目前最佳模型的结果。

BriefGPT - AI 论文速递 ·