小红花·文摘

本文研究了语音信号的音色及其属性检测（vTAD）。结果表明，ECAPA-TDNN编码器在已见场景中表现优异，而FACodec编码器在未见场景中具有更好的泛化能力。

语音音色属性检测的介绍

BriefGPT - AI 论文速递 ·

本文研究了声学和文本分类模型在识别爱尔兰方言中的应用，以提高语音识别准确性。ECAPA-TDNN模型在阿尔斯特方言识别中表现最佳。此外，提出了一种改进的语言增强变压器模型，通过引入CTC信息显著降低字符误差率。研究发现，解码器对语言信息的敏感性高于声学信息。

在多任务框架中的低资源爱尔兰语语音识别和方言识别

BriefGPT - AI 论文速递 ·

DiffSpEx是一种基于分数的生成建模的目标说话人提取方法，使用ECAPA-TDNN目标说话人嵌入，并交替将分数函数调整到SDE时间嵌入和目标说话人嵌入上。它在WSJ0-2mix数据集上展示了潜力，实现了12.9 dB的SI-SDR和3.56的NISQA得分。预训练的DiffSpEx模型微调到特定说话人能进一步提高性能，实现了目标说话人提取中的个性化。

通过估计数据分布的比例进行离散扩散语言建模

BriefGPT - AI 论文速递 ·