HebDB:用于希伯来语语音处理的弱监督数据集

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

这篇文章介绍了希伯来语口语处理的数据集HebDB,包含2500小时的希伯来语自然和自发语音记录。作者提供了原始记录和经过预处理、弱监督和筛选后的版本,并提供了两种基准系统用于自动语音识别。结果显示,提出的方法在相似的模型大小下比评估的基准方法取得了更好的结果。

🎯

关键要点

  • 介绍了希伯来语口语处理的数据集HebDB,包含约2500小时的自然和自发语音记录。
  • 数据集包含多种说话者和主题,旨在增强希伯来语口语处理工具的研究和开发。
  • 提供原始记录及经过预处理、弱监督和筛选后的版本。
  • 提供两种基准系统用于自动语音识别:自监督模型和完全监督模型。
  • 比较了这两种方法在HebDB上的性能与当前多语言ASR替代方法。
  • 结果显示,提出的方法在相似的模型大小下优于评估的基准方法。
  • 数据集、代码和模型在指定网址上公开可用。
➡️

继续阅读