本研究提出MT-RNNT-AFT方法,减少多说话人语音识别对前端源分离的依赖。通过简化标签生成和无需对齐的训练,仅需一次编码器处理即可识别多说话者。实验表明,该方法性能与先进方案相当,同时简化了训练过程。
完成下面两步后,将自动完成登录并继续当前操作。