AV-CrossNet是一种音视系统,用于语音增强、目标说话人提取和多说话人分离。它通过添加视觉线索和利用全局注意力和位置编码来提高语音分离性能。评估结果表明,AV-CrossNet在音视任务上具有最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。