本文探讨了Transformer模型在多说话者语音识别中的应用,实验结果显示其相对错误率显著降低。同时,提出了音频-视觉声音分离方案和基于多通道的ASR系统,均取得良好效果。研究还涉及语音分离模型的可转移性及其在低资源环境下的应用,展示了新架构在实时任务中的优势。
该文章介绍了一种名为TokenSplit的语音分离模型,可在离散标记序列上操作。该模型通过输入掩码实现多任务训练,包括将每个语音源进行分离和转录,并从文本生成语音。作者还介绍了模型的“修正”版本,证明了该模型在分离方面具有优秀的性能,并提供了语音合成的音频样本来展示该模型的附加效用。
该文介绍了一种新的语音分离模型——时域conformers(TD-Conformers),它是一种类似于双路径(DP)网络的方法,可以顺序处理本地和全局上下文,但时间复杂性函数不同。该模型在现实中较短的信号长度下更有效,提出了子采样层以进一步提高计算效率。
完成下面两步后,将自动完成登录并继续当前操作。