小红花·文摘

本研究提出了音频时序推理评估（TREA）数据集，以解决大型音频语言模型（LALMs）在时序推理任务中的评估不足。研究结果表明，开源LALMs在该数据集上的表现远低于人类，并引入了一种新的不确定性度量，强调全面评估LALMs在高风险应用中的重要性。