小红花·文摘

这篇文章介绍了希伯来语口语处理的数据集HebDB，包含2500小时的希伯来语自然和自发语音记录。作者提供了原始记录和经过预处理、弱监督和筛选后的版本，并提供了两种基准系统用于自动语音识别。结果显示，提出的方法在相似的模型大小下比评估的基准方法取得了更好的结果。