小红花·文摘

本文介绍了多种基于视觉和自我学习的目标说话人提取方法，提出了VCSE和LLM-TSE模型，结合文本和声学线索显著提高了提取性能。此外，研究探讨了上下文感知的自动语音识别系统和音频-文本交叉模态表示提取器，均在多个数据集上取得了优异结果。