小红花·文摘

本文介绍了一种音视频“位置时间标记”模型，结合多人视觉跟踪与多重语音源定位，解决了多人语音辨别问题。研究提出了新方法和数据集，显著提高了说话人分离的准确性和效率。