Spatial LibriSpeech:一个用于空间音频学习的增强数据集

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

Spatial LibriSpeech是一个包含超过650小时的19通道音频的空间音频数据集,用于机器学习模型训练。该数据集包含源位置、说话方向、房间声学和几何标签。通过对四个空间音频任务进行模型训练,结果表明该数据集在3D源定位、距离、T30和DRR估计方面具有良好的性能,并在评估数据集上表现出良好的泛化能力。

🎯

关键要点

  • Spatial LibriSpeech是一个包含超过650小时的19通道音频的空间音频数据集。
  • 该数据集用于机器学习模型训练,包含源位置、说话方向、房间声学和几何标签。
  • 数据集通过增加LibriSpeech样本与8k+合成房间中的200k+模拟声学条件生成。
  • 模型训练结果显示,3D源定位的中值绝对误差为6.60°,距离为0.43m,T30为90.66ms,DRR估计为2.74dB。
  • 相同模型在评估数据集上表现出良好的泛化能力,例如在TUT声事件2018的3D源定位中中值绝对误差为12.43°,ACE挑战中T30估计为157.32ms。
➡️

继续阅读