学习空间感知的语言和音频嵌入

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

Spatial LibriSpeech是一个包含650小时音频和标签的数据集,通过对LibriSpeech样本进行处理生成。该数据集在四个空间音频任务上进行了模型训练并取得良好结果。

🎯

关键要点

  • Spatial LibriSpeech是一个包含超过650小时19通道音频的数据集。

  • 该数据集包含一阶ambiSonics和可选分心噪声,旨在用于机器学习模型训练。

  • Spatial LibriSpeech提供源位置、说话方向、房间声学和几何标签。

  • 数据集通过增加LibriSpeech样本与200k+模拟声学条件生成。

  • 在四个空间音频任务中进行模型训练,3D源定位的中值绝对误差为6.60°。

  • 模型在广泛使用的评估数据集上表现良好,例如在TUT声事件2018中的中值绝对误差为12.43°。

➡️

继续阅读