本研究审查了七个主要音频数据集中的伦理问题,发现存在性别偏见、对边缘化社区的刻板印象,以及大量版权作品。研究还开发了一种工具,帮助艺术家确认其作品是否在这些数据集中。
Spatial LibriSpeech是一个包含650小时音频和标签的数据集,通过对LibriSpeech样本进行处理生成。该数据集在四个空间音频任务上进行了模型训练并取得良好结果。
介绍了一个音频数据集,用于关键词检测系统的训练和评估,具有可重复和可比较的准确性指标。描述了数据的收集和验证方式,以及以前版本的属性。报告了在该数据集上训练的模型的基线结果。
通过创建MuTox音频数据集,实现了跨多语言的零射击毒性检测,AUC值提高超过1%,语言覆盖范围扩大10倍以上。与基于文本的分类器相比,MuTox的精确度和召回率提高约2.5倍,显示出其在音频毒性检测领域的潜力。
完成下面两步后,将自动完成登录并继续当前操作。