Spatial LibriSpeech:一个用于空间音频学习的增强数据集
原文中文,约500字,阅读约需2分钟。发表于: 。我们提出了 Spatial LibriSpeech,这是一个具有超过 650 小时 19 通道音频、一阶 ambiSonics 和可选分心噪声的空间音频数据集。Spatial LibriSpeech 旨在用于机器学习模型训练,并包含源位置、说话方向、房间声学和几何标签。我们通过增加 LibriSpeech 样本与 8k + 合成房间中的 200k + 模拟声学条件来生成 Spatial...
Spatial LibriSpeech是一个包含超过650小时的19通道音频的空间音频数据集,用于机器学习模型训练。该数据集包含源位置、说话方向、房间声学和几何标签。通过对四个空间音频任务进行模型训练,结果表明该数据集在3D源定位、距离、T30和DRR估计方面具有良好的性能,并在评估数据集上表现出良好的泛化能力。