本研究提出了极长音频基准(BLAB),用于评估音频语言模型在长音频段的理解能力。通过对833小时音频的评估,发现现有模型在定位和时长估计等任务中的表现不佳,揭示了任务难度与音频时长之间的权衡关系。
完成下面两步后,将自动完成登录并继续当前操作。