介绍了一个新的多模态、多类型、多用途的视听学术演讲数据集(M3AV),包含367小时的视频,涵盖计算机科学、数学、医学和生物学主题。该数据集可用于视听识别和理解任务,具有高质量的人工标注。实验结果表明,M3AV是一个具有挑战性的数据集。该工作已被ACL 2024主会接收。
完成下面两步后,将自动完成登录并继续当前操作。