本文研究了语音信号的音色及其属性检测(vTAD)。结果表明,ECAPA-TDNN编码器在已见场景中表现优异,而FACodec编码器在未见场景中具有更好的泛化能力。
本文研究了声学和文本分类模型在识别爱尔兰方言中的应用,以提高语音识别准确性。ECAPA-TDNN模型在阿尔斯特方言识别中表现最佳。此外,提出了一种改进的语言增强变压器模型,通过引入CTC信息显著降低字符误差率。研究发现,解码器对语言信息的敏感性高于声学信息。
DiffSpEx是一种基于分数的生成建模的目标说话人提取方法,使用ECAPA-TDNN目标说话人嵌入,并交替将分数函数调整到SDE时间嵌入和目标说话人嵌入上。它在WSJ0-2mix数据集上展示了潜力,实现了12.9 dB的SI-SDR和3.56的NISQA得分。预训练的DiffSpEx模型微调到特定说话人能进一步提高性能,实现了目标说话人提取中的个性化。
完成下面两步后,将自动完成登录并继续当前操作。