ACL 2024 | 引领学术视听研究，上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

机器之心 ·

ACL 2024 | 引领学术视听研究，上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

介绍了一个新的多模态、多类型、多用途的视听学术演讲数据集（M3AV），包含367小时的视频，涵盖计算机科学、数学、医学和生物学主题。该数据集可用于视听识别和理解任务，具有高质量的人工标注。实验结果表明，M3AV是一个具有挑战性的数据集。该工作已被ACL 2024主会接收。

🎯

关键要点

介绍了一个新的多模态、多类型、多用途的视听学术演讲数据集（M3AV），包含367小时的视频。
数据集涵盖计算机科学、数学、医学和生物学主题，具有高质量的人工标注。
M3AV数据集可用于视听识别和理解任务，实验结果表明其具有挑战性。
数据集主要由复杂幻灯片、口语和书面形式的语音转写文本以及对应的论文文本组成。
M3AV支持多模态内容的识别和高级学术知识的理解任务。
设计了三个实验任务：基于上下文的语音识别、自发风格的语音合成、幻灯片与脚本生成。
基于上下文的语音识别任务中，使用TCPGen模型显著降低了稀有词词错率。
自发风格的语音合成任务中，MQTTS模型表现最佳，能够生成更自然的语音。
幻灯片与脚本生成任务旨在帮助研究人员处理快速更新的学术资料。
研究发现现有模型在感知和理解学术演讲视频方面仍有提升空间。

❓

延伸问答

M3AV数据集包含哪些主题的内容？

M3AV数据集涵盖计算机科学、数学、医学和生物学主题。

M3AV数据集的主要用途是什么？

M3AV数据集可用于视听识别和理解任务。

M3AV数据集的实验任务有哪些？

实验任务包括基于上下文的语音识别、自发风格的语音合成和幻灯片与脚本生成。

M3AV数据集的特点是什么？

M3AV数据集是多模态、多类型、多用途，包含367小时的视频和高质量的人工标注。

M3AV数据集在语音识别方面的表现如何？

使用TCPGen模型显著降低了稀有词词错率，表明在语音识别上具有挑战性。

M3AV数据集的创建流程是怎样的？

论文作者详细介绍了创建流程，并对数据集进行了各种分析。

🏷️

继续阅读

研究发现，OpenAI、Anthropic、Google、Amazon 和 xAI 在一种攻击类型上均未能通过
思科研究发现，企业在评估AI模型时使用的安全基准存在问题。多轮对话攻击的成功率显著高于单轮对话，且单轮表现无法有效预测多轮韧性。不同模型在多轮攻击下的表现...
FlowDB: 性能超过RocksDB的时序数据库
FlowDB 是一款高性能的嵌入式时序存储引擎，基于 Rust 构建，专为时序数据和日志负载优化。它采用无锁序列号分配、锁外 WAL 预编码和双态 Mem...
二〇二六年五月总结：颓态总会过去吧
最近感到颓废，常躺床上刷短视频，决定多出去活动。5月骑行345.92公里，骑车状态不佳，需要维护。阅读了《成为专业人像摄影师》，意识到实践的重要性。希望尽...
大模型企业扎堆IPO：智谱MiniMax冲刺A股，Anthropic抢先OpenAI递表
2026年6月，全球人工智能市场迎来大模型上市热潮。中国智谱与MiniMax启动A股IPO，美国Anthropic也向SEC提交上市申请。智谱计划募资15...
Thermacell最新的智能驱蚊系统更大且更贵
Thermacell推出了新一代Wi-Fi智能驱蚊系统Liv 2.0，起价约1746美元，覆盖面积可达900平方英尺。该系统硬件改进，能有效驱赶小虫，并支...
我们与Voltus签署了一项首创协议，以为电网创造智能容量解决方案。
谷歌与Voltus签署三年协议，将在PJM电网区域释放最多100兆瓦的新电力容量。Voltus将协调灵活的分布式资源，如电池和智能恒温器，在电网需求高峰时...