小红花·文摘

本研究提出MT-RNNT-AFT方法，减少多说话人语音识别对前端源分离的依赖。通过简化标签生成和无需对齐的训练，仅需一次编码器处理即可识别多说话者。实验表明，该方法性能与先进方案相当，同时简化了训练过程。