本文介绍了一种音视频“位置时间标记”模型,结合多人视觉跟踪与多重语音源定位,解决了多人语音辨别问题。研究提出了新方法和数据集,显著提高了说话人分离的准确性和效率。
完成下面两步后,将自动完成登录并继续当前操作。