小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了音频时序推理评估（TREA）数据集，以解决大型音频语言模型（LALMs）在时序推理任务中的评估不足。研究结果表明，开源LALMs在该数据集上的表现远低于人类，并引入了一种新的不确定性度量，强调全面评估LALMs在高风险应用中的重要性。

Benchmarking and Confidence Evaluation of Large Audio Language Models for Temporal Reasoning

BriefGPT - AI 论文速递 ·

本研究探讨了音频特定编辑对大型音频语言模型（LALMs）在越狱过程中的影响。研究发现，音频编辑显著影响LALMs的安全性和鲁棒性，为未来研究提供了基础。

Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak

BriefGPT - AI 论文速递 ·