NVIDIA 和马里兰大学发布 Audio Flamingo Next (AF-Next):一个功能强大且开放的大型音频语言模型

NVIDIA 和马里兰大学发布 Audio Flamingo Next (AF-Next):一个功能强大且开放的大型音频语言模型

📝

内容提要

NVIDIA与马里兰大学推出了Audio Flamingo Next(AF-Next),这是一个开放的大型音频语言模型,旨在提升音频理解能力。AF-Next有三种版本,分别用于问答、多步骤推理和音频字幕生成。该模型通过时间音频思维链技术,能够更准确地处理长达30分钟的录音,并在长音频理解和音乐识别方面表现优异。

🎯

关键要点

  • NVIDIA与马里兰大学推出了Audio Flamingo Next (AF-Next),这是一个开放的大型音频语言模型,旨在提升音频理解能力。

  • AF-Next提供三种版本,分别用于问答(AF-Next-Instruct)、多步骤推理(AF-Next-Think)和音频字幕生成(AF-Next-Captioner)。

  • AF-Next通过时间音频思维链技术,能够更准确地处理长达30分钟的录音,提高长音频理解和音乐识别的能力。

  • AF-Next的训练数据集包含约1.08亿个样本和约100万小时的音频,涵盖多种音频类型和任务。

  • 在各项基准测试中,AF-Next在音频推理、音乐理解和长音频理解方面均表现优异,超越了之前的模型和闭源对手。

延伸问答

Audio Flamingo Next (AF-Next) 的主要功能是什么?

AF-Next 是一个开放的大型音频语言模型,旨在提升音频理解能力,提供问答、多步骤推理和音频字幕生成等功能。

AF-Next 有哪些不同的版本?

AF-Next 提供三种版本:AF-Next-Instruct(问答)、AF-Next-Think(多步骤推理)和 AF-Next-Captioner(音频字幕生成)。

AF-Next 如何处理长达30分钟的录音?

AF-Next 通过时间音频思维链技术,将中间推理步骤锚定到音频时间戳,从而提高长音频理解的准确性。

AF-Next 的训练数据集包含多少音频样本?

AF-Next 的训练数据集包含约1.08亿个样本和约100万小时的音频。

AF-Next 在音频推理基准测试中的表现如何?

AF-Next 在音频推理基准测试 MMAU-v05.15.25 中,AF-Next-Instruct 的平均准确率达到 74.20%,超越了之前的模型。

AF-Next 的架构包含哪些主要组件?

AF-Next 由 AF-Whisper 音频编码器、音频适配器、LLM骨干网络和流式 TTS 模块四个主要组件构成。

➡️

继续阅读