本文探讨了通过引入有限视觉信息来减少自监督语音模型在多语言环境中的性能差距。研究表明,视觉信息对单语和双语模型均有益,尤其是双语模型的表现显著提升,零样本音素区分的多语言性能差距从31.5%降至8.04%。
完成下面两步后,将自动完成登录并继续当前操作。