小红花·文摘

本文提出了VoxEval，一个新的基于语音的问答基准，旨在评估端到端语音语言模型的知识理解能力。研究表明，现有模型在多样化音频条件下存在显著性能限制，为未来改进提供了方向。