Synthia 的旋律:无监督音频领域自适应的基准框架
原文中文,约200字,阅读约需1分钟。发表于: 。我们提出了 Synthia's melody,一个能够模拟具有用户指定混淆结构的无数种 4 秒旋律的音频数据生成框架,用以填补未经探索的音频领域无监督领域适应性研究的空白,并通过生成两种类型的分布偏移 - 模型域偏移和样本选择偏差来评估声学深度学习模型在这些偏移下的表现。我们的评估结果显示,Synthia's melody 为检验这些模型对不同程度分布偏移敏感性提供了稳健的测试平台。
本文比较分析了音频理解模型预训练策略的影响,包括预训练数据集和方法。有监督模型在超大规模有人工注释的音乐数据集上训练实现了最先进的性能,而无监督模型则在某些情况下表现出较高的效率和通用性。