本研究提出了音频为中心的视频理解基准(ACVUBench),旨在评估多模态大型语言模型对音频信息的理解能力。基准包含2,662段视频和超过13,000个问答对,设计了音频中心任务,以展示音频-视觉模型的不足。
本研究提出了一种查询为中心的音频-视觉认知网络(QUAG),旨在解决多模态视频检索中用户偏好内容学习的不足。QUAG通过全球对比对齐和局部细粒度交互,提升音视频内容的感知能力,准确识别用户期望的内容,并在HIREST数据集上取得了优异的表现。
本研究提出了EchoSegnet方法,结合预训练的2D音频视觉模型与三维场景表示,旨在提升复杂环境中音响物体的分割效果。
我们推出了Real Acoustic Fields(RAF)数据集,包含真实声场数据、多视图图像配对的房间脉冲响应数据,以及声音发射器和听者的6DoF姿态跟踪数据。该数据集用于评估和增强新视角声学合成方法,结合视觉数据与神经声学场模型,展示了模拟-真实方法的有效性。RAF是音频和音频-视觉神经声学研究的理想资源。
完成下面两步后,将自动完成登录并继续当前操作。