本文介绍了VoxEval,一个新的语音问答基准,旨在评估端到端语音语言模型的知识理解能力。研究表明,现有模型在多样化音频条件下存在显著性能限制,为未来的改进提供了方向。
本研究提出了一种新颖的全端到端口型同步框架LatentSync,基于音频条件的潜在扩散模型,旨在提高时序一致性和口型同步的准确性。
完成下面两步后,将自动完成登录并继续当前操作。