小红花·文摘

AV-CrossNet是一种音视系统，用于语音增强、目标说话人提取和多说话人分离。它通过添加视觉线索和利用全局注意力和位置编码来提高语音分离性能。评估结果表明，AV-CrossNet在音视任务上具有最先进的性能。