小红花·文摘

本研究提出了音频为中心的视频理解基准（ACVUBench），旨在评估多模态大型语言模型对音频信息的理解能力。基准包含2,662段视频和超过13,000个问答对，设计了音频中心任务，以展示音频-视觉模型的不足。

ACVUBench: An Audio-Centric Video Understanding Benchmark

BriefGPT - AI 论文速递 ·

本研究提出了一种查询为中心的音频-视觉认知网络（QUAG），旨在解决多模态视频检索中用户偏好内容学习的不足。QUAG通过全球对比对齐和局部细粒度交互，提升音视频内容的感知能力，准确识别用户期望的内容，并在HIREST数据集上取得了优异的表现。

以查询为中心的音频-视觉认知网络用于瞬间检索、分割和步骤字幕生成

BriefGPT - AI 论文速递 ·

本研究提出了EchoSegnet方法，结合预训练的2D音频视觉模型与三维场景表示，旨在提升复杂环境中音响物体的分割效果。

三维音频视觉分割

BriefGPT - AI 论文速递 ·

我们推出了Real Acoustic Fields（RAF）数据集，包含真实声场数据、多视图图像配对的房间脉冲响应数据，以及声音发射器和听者的6DoF姿态跟踪数据。该数据集用于评估和增强新视角声学合成方法，结合视觉数据与神经声学场模型，展示了模拟-真实方法的有效性。RAF是音频和音频-视觉神经声学研究的理想资源。

SonicSim: 一种可定制的移动声源环境下语音处理的仿真平台

BriefGPT - AI 论文速递 ·