Spatial LibriSpeech:一个用于空间音频学习的增强数据集
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
Spatial LibriSpeech是一个包含超过650小时的19通道音频的空间音频数据集,用于机器学习模型训练。该数据集包含源位置、说话方向、房间声学和几何标签。通过对四个空间音频任务进行模型训练,结果表明该数据集在3D源定位、距离、T30和DRR估计方面具有良好的性能,并在评估数据集上表现出良好的泛化能力。
🎯
关键要点
- Spatial LibriSpeech是一个包含超过650小时的19通道音频的空间音频数据集。
- 该数据集用于机器学习模型训练,包含源位置、说话方向、房间声学和几何标签。
- 数据集通过增加LibriSpeech样本与8k+合成房间中的200k+模拟声学条件生成。
- 模型训练结果显示,3D源定位的中值绝对误差为6.60°,距离为0.43m,T30为90.66ms,DRR估计为2.74dB。
- 相同模型在评估数据集上表现出良好的泛化能力,例如在TUT声事件2018的3D源定位中中值绝对误差为12.43°,ACE挑战中T30估计为157.32ms。
➡️