本文介绍了多种基于视觉和自我学习的目标说话人提取方法,提出了VCSE和LLM-TSE模型,结合文本和声学线索显著提高了提取性能。此外,研究探讨了上下文感知的自动语音识别系统和音频-文本交叉模态表示提取器,均在多个数据集上取得了优异结果。
完成下面两步后,将自动完成登录并继续当前操作。