ACVUBench: An Audio-Centric Video Understanding Benchmark
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了音频为中心的视频理解基准(ACVUBench),旨在评估多模态大型语言模型对音频信息的理解能力。基准包含2,662段视频和超过13,000个问答对,设计了音频中心任务,以展示音频-视觉模型的不足。
🎯
关键要点
- 本研究提出了以音频为中心的视频理解基准(ACVUBench),旨在评估多模态大型语言模型对音频信息的理解能力。
- ACVUBench包含2,662段视频和超过13,000个高质量人类标注的问答对。
- 基准设计了一系列音频中心任务,以评估音频内容及其与视觉的互动理解。
- 研究展示了当前音频-视觉模型在理解音频信息方面的不足。
➡️