小红花·文摘

本文提出了一种新的神经联合抄录模型（EEND），适用于长篇音频，显著降低了说话人分离误差（DER）和计算复杂性。该模型结合自我注意力机制和多任务学习，提升了多说话人场景下的说话人识别和分离性能。实验结果表明，该方法在多个数据集上均取得了显著的性能提升。