小红花·文摘

Interspeech2026 | MSU-Bench：多说话人对话理解评测基准

实时互动网 ·

NVIDIA 和马里兰大学发布 Audio Flamingo Next (AF-Next)：一个功能强大且开放的大型音频语言模型

实时互动网 ·

AU-Harness：用于音频 LLM 整体评估的开源工具包

实时互动网 ·

NVIDIA 发布 Audio Flamingo 3：推动音频通用智能发展的开源模型

实时互动网 ·

本研究创建了AJailBench，评估大型音频语言模型（LAMs）在越狱攻击下的安全性。结果表明，现有LAM在面对精心设计的音频攻击时存在明显脆弱性，强调了开发更强大防御机制的必要性。

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

BriefGPT - AI 论文速递 ·

本文探讨了大型音频语言模型的越狱攻击，指出现有文本攻击的不足，并提出了一种新方法AudioJailbreak，具有异步性、普遍性、隐蔽性和抗干扰性，能有效提升模型安全性。

Audio Jailbreak: Jailbreak Attacks on End-to-End Large Audio Language Models

BriefGPT - AI 论文速递 ·

vLLM是一个专为大语言模型推理加速设计的框架，解决了内存管理瓶颈，实现了KV缓存内存几乎零浪费。它支持音频语言模型的离线推理，并提供多种模型的使用示例，适用于不同的音频输入。

【vLLM 学习】Audio Language

HyperAI超神经 ·

本研究提出了极长音频基准（BLAB），用于评估音频语言模型在长音频段的理解能力。通过对833小时音频的评估，发现现有模型在定位和时长估计等任务中的表现不佳，揭示了任务难度与音频时长之间的权衡关系。

BLAB: A Benchmark for Extremely Long Audio

BriefGPT - AI 论文速递 ·

本研究探讨了音频大型语言模型在真实环境中的听觉认知能力，提出了五种测试时间计算方法，以提升模型在复杂任务中的表现，为助听器和语音助手等应用的发展奠定基础。

Scaling Auditory Cognition in Audio Language Models via Test-Time Computation

BriefGPT - AI 论文速递 ·

本研究提出了AdvWave框架，旨在提高大型音频语言模型的安全性，防止越狱攻击。通过双阶段优化和适应性对抗目标搜索，AdvWave在多个模型上实现了比基线方法高出40%的攻击成功率，具有重要应用价值。

AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models

BriefGPT - AI 论文速递 ·

本研究提出了NatureLM-audio音频语言基础模型，旨在解决生物声学中的动物声音检测、稀有物种分类及行为标签问题。该模型通过多样化的文本-音频配对训练数据，推动了生物声学领域的研究进展。

NatureLM-audio: An Audio-Language Foundation Model for Bioacoustics

BriefGPT - AI 论文速递 ·

本研究探讨了大型音频语言模型在理解音频和语言信息时的幻觉问题。通过三个评估任务，发现模型在识别声音事件、确定事件顺序和识别声音来源方面存在局限性。引入多轮链式思维方法后，模型表现有所提升。

Can Large Audio-Language Models Truly 'Hear'? Tackling Hallucination Phenomena through Multi-Task Assessment and Stepwise Audio Reasoning

BriefGPT - AI 论文速递 ·

本文探讨了多种音频语言模型的进展，包括Mockingjay、wave2vec2.0和Qwen-Audio等。这些模型在语音理解、文本到音频生成及多轮对话方面表现优异，尤其是Qwen-Audio通过多任务训练框架显著提升了音频理解能力。此外，AIR-Bench基准为评估音频模型的交互能力提供了新方法，推动了该领域的发展。