Sortformer:通过时间戳与标记的桥接实现说话人分离与自动语音识别的无缝整合
原文中文,约2400字,阅读约需6分钟。发表于: 。本研究针对说话人分离中的排列问题提出了一种新颖的神经模型Sortformer,与现有的端到端分离模型相比,采用了不同的训练目标。引入的Sort Loss方法不仅改善了排列解决能力,也在多说话人自动语音识别架构中展示了显著的性能提升,解决了说话人标记与语音标记的联系问题。
本研究提出了Sortformer神经模型,用于解决说话人分离中的排列问题。该模型采用了不同的训练目标,并引入了Sort Loss方法来改善排列解决能力。实验证明Sortformer在多说话人自动语音识别架构中表现出显著的性能提升。