本文介绍了MAST,一种利用文本、音频和视频三种模态信息的多模态抽象文本摘要模型。MAST通过更关注文本模态来解决从音频模态中提取信息的挑战,并在How2数据集上取得了优于目前最佳模型的结果。
该研究介绍了UniBuc-NLP团队在SemEval 2024任务8中使用基于transformer和混合深度学习架构的模型。在子任务B中取得了强势的第二名,但在子任务A和C中出现了过拟合的问题。
本研究提出了一种新的优化问题形式,通过稀疏化感知的优化方法增强了模型训练的理论理解。通过引入预训练模型和随机草图运算符,实现了更紧凑的收敛速度和放松了假设。涵盖了Dropout和稀疏训练等重要技术。
研究提出了一种名为MAST的多尺度音频谱变换器,通过分层表示学习提高音频分类效率。在多个数据集上,MAST的准确度比AST提高了22.2%、4.4%和4.7%,同时更高效。
完成下面两步后,将自动完成登录并继续当前操作。