小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了AV-Odyssey基准，评估多模态大语言模型在理解音视频信息方面的表现。通过设计4555个多项选择题，揭示了现有模型在简单音频任务中的局限性，为未来的数据集和模型开发提供了重要见解。

AV-Odyssey Benchmark: Can Your Multimodal Large Language Model Really Understand Audio-Visual Information?

BriefGPT - AI 论文速递 ·

本文综述了深度学习在暴力检测中的应用，提出了多模态神经网络和超几何空间框架，以提高检测的准确性和泛化能力。研究表明，结合音视频信息和新型模型结构能够有效识别暴力行为，推动了该领域的发展。

通过深度学习视听融合加强人类动作识别和暴力检测

BriefGPT - AI 论文速递 ·