BriefGPT - AI 论文速递 ·

语音 - MASSIVE：一个面向 SLU 及更多领域的多语种语音数据集

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本研究介绍了多个多语言数据集，包括MASSIVE、MaSS、MLS和SpeechMatrix，涵盖意图检测、语音识别和翻译等任务。这些数据集为自然语言处理和多语言系统的发展提供了重要资源，推动了相关技术的进步。

🎯

关键要点

MASSIVE 数据集包含 51 种语言、18 种领域、60 个意图和 55 个插槽，共有 100 万个标注虚拟助手话语。
MaSS 数据集基于多种语言录制了 8,130 个平行口语表达，证明了其在多语言语音转写和翻译任务中的有效性。
Multilingual LibriSpeech（MLS）数据集是一个大型多语言语音研究语料库，包含 8 种语言及相应的自动语音识别模型。
SpeechMatrix 是一个用于多语言演讲语音翻译研究的大规模语音语料库，探讨了多语言语音翻译问题及解决方案。
维基媒体数据集包含 1780 小时的音频和转录，适用于训练语音识别、语音翻译和机器翻译模型。
Multilingual Amazon SLU 资源包包含 52 种语言的数据集，旨在推进自然语言理解技术的发展。
M3LS 数据集是目前最大的多语言多模态摘要数据集，包含超过一百万个新闻文章，跨越 20 种语言。
Massively Multilingual Speech（MMS）项目构建了包括 1406 种语言的预训练模型，显著提高了多语种语音识别的性能。

❓

延伸问答

MASSIVE 数据集包含哪些语言和领域？

MASSIVE 数据集包含 51 种语言、18 种领域、60 个意图和 55 个插槽。

MaSS 数据集的主要用途是什么？

MaSS 数据集主要用于多语言语音转写和翻译任务。

Multilingual LibriSpeech 数据集的特点是什么？

Multilingual LibriSpeech 数据集是一个大型多语言语音研究语料库，包含 8 种语言及相应的自动语音识别模型。

SpeechMatrix 数据集解决了什么问题？

SpeechMatrix 数据集探讨了多语言演讲语音翻译问题及其解决方案。

维基媒体数据集的内容和用途是什么？

维基媒体数据集包含 1780 小时的音频和转录，适用于训练语音识别、语音翻译和机器翻译模型。

M3LS 数据集的规模和目标是什么？

M3LS 数据集是目前最大的多语言多模态摘要数据集，包含超过一百万个新闻文章，跨越 20 种语言。

🏷️

标签

多语言数据集意图检测数据集翻译自然语言处理语音识别

➡️

继续阅读

发现频道：最近10日的热门排行榜[2026年第28期]
最近，小众软件论坛发现频道的热门排行榜上出现了多个实用工具，包括12306免费退票助手、WhisperSubTranslate字幕生成工具和MShell ...
提升生产力的 7 大 UCaaS 功能
企业过去一直利用统一通信即服务 (UCaaS) 来降低运营成本。但现在情况不同了。如今，部分得益于 AI 的发展，企业将 UCaaS 视为提升协作效率的最有效方式。
MFE将于2027年推出统一的欧洲流媒体平台
MFE-MediaForEurope 将于 2027 年 1 月起在其欧洲市场推出单一流媒体平台，该平台将整合其意大利和德国业务的技术，以期加强其在全球流...
在被曝光收集开发者仓库后 Grok Build通过云端更新悄悄关闭数据上传但未发布任何回应
Grok Build 被曝光在未经开发者同意的情况下收集完整代码仓库，存在严重的数据泄露风险。SpaceXAI 随后禁用数据上传功能，但未作官方回应，导致...
三星「阔折叠」要来了，能挑战苹果华为吗？
这么好的手机，粉丝先买#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
Netflix 探索直播电视以提升观众参与度
据报道，尽管 Netflix 仍然是全球最大的订阅流媒体服务商，但为了提高观众参与度，该公司正在探索一系列新的产品和分销策略。据《华尔街日报》报道，企业...