小红花·文摘

本文探讨了Transformer模型在多说话者语音识别中的应用，实验结果显示其相对错误率显著降低。同时，提出了音频-视觉声音分离方案和基于多通道的ASR系统，均取得良好效果。研究还涉及语音分离模型的可转移性及其在低资源环境下的应用，展示了新架构在实时任务中的优势。

BriefGPT - AI 论文速递 ·

该文章介绍了一种名为TokenSplit的语音分离模型，可在离散标记序列上操作。该模型通过输入掩码实现多任务训练，包括将每个语音源进行分离和转录，并从文本生成语音。作者还介绍了模型的“修正”版本，证明了该模型在分离方面具有优秀的性能，并提供了语音合成的音频样本来展示该模型的附加效用。

BriefGPT - AI 论文速递 ·

该文介绍了一种新的语音分离模型——时域conformers（TD-Conformers），它是一种类似于双路径（DP）网络的方法，可以顺序处理本地和全局上下文，但时间复杂性函数不同。该模型在现实中较短的信号长度下更有效，提出了子采样层以进一步提高计算效率。

BriefGPT - AI 论文速递 ·