ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

介绍了一个新的多模态、多类型、多用途的视听学术演讲数据集(M3AV),包含367小时的视频,涵盖计算机科学、数学、医学和生物学主题。该数据集可用于视听识别和理解任务,具有高质量的人工标注。实验结果表明,M3AV是一个具有挑战性的数据集。该工作已被ACL 2024主会接收。

🎯

关键要点

  • 介绍了一个新的多模态、多类型、多用途的视听学术演讲数据集(M3AV),包含367小时的视频。
  • 数据集涵盖计算机科学、数学、医学和生物学主题,具有高质量的人工标注。
  • M3AV数据集可用于视听识别和理解任务,实验结果表明其具有挑战性。
  • 数据集主要由复杂幻灯片、口语和书面形式的语音转写文本以及对应的论文文本组成。
  • M3AV支持多模态内容的识别和高级学术知识的理解任务。
  • 设计了三个实验任务:基于上下文的语音识别、自发风格的语音合成、幻灯片与脚本生成。
  • 基于上下文的语音识别任务中,使用TCPGen模型显著降低了稀有词词错率。
  • 自发风格的语音合成任务中,MQTTS模型表现最佳,能够生成更自然的语音。
  • 幻灯片与脚本生成任务旨在帮助研究人员处理快速更新的学术资料。
  • 研究发现现有模型在感知和理解学术演讲视频方面仍有提升空间。
➡️

继续阅读