本文介绍了MAST,一种利用文本、音频和视频三种模态信息的多模态抽象文本摘要模型。MAST通过更关注文本模态来解决从音频模态中提取信息的挑战,并在How2数据集上取得了优于目前最佳模型的结果。
本文介绍了一种新的图像聚类方法TAC,利用外部知识作为监督信号来引导聚类,同时采用文本和图像模态的相互作用来改进图像聚类性能。实验证明,TAC在多个图像聚类基准上取得了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。