小红花·文摘

本研究提出了一种名为MCAF的无训练框架，旨在解决长视频理解的挑战。MCAF通过多模态粗到细的注意力集中策略，优先处理与理解任务相关的片段，从而显著提高准确性和整体性能，超越现有方法。

MCAF: An Efficient Agent-based Video Understanding Framework through Multimodal Coarse-to-Fine Attention Focusing

BriefGPT - AI 论文速递 ·

本研究提出Mavors框架，旨在解决多模态大语言模型在长视频理解中的计算效率与细粒度时空模式保持之间的矛盾。通过多粒度视频表示方法，显著提升了复杂运动和不同分辨率视频的时空推理性能。

Multimodal Large Language Model with Multi-Granularity Video Representation

BriefGPT - AI 论文速递 ·

多榜单登顶！华为 & 哈工深团队提出 AdaReTaKe，突破长视频理解极限

机器之心 ·

本研究提出了一种语义驱动的搜索框架，解决长视频理解中文本查询与视觉元素之间的逻辑关系。通过定义四种逻辑依赖关系，动态更新帧采样分布，实现语义关键帧识别，显著提升了关键帧选择和视频问答任务的性能。

Logic-in-Frames: Dynamic Keyframe Search for Long Video Understanding via Visual Semantic-Logical Verification

BriefGPT - AI 论文速递 ·

本研究提出了VideoRAG框架，旨在改善长视频理解。该框架采用双通道架构，整合图基文本知识和多模态上下文编码，能够处理无限长度的视频，并通过跨视频知识图谱维持语义依赖性。实验证明，VideoRAG在长视频处理上优于现有方法。

Video Retrieval-Augmented Generation: Processing Extremely Long Context Videos

BriefGPT - AI 论文速递 ·

本研究提出了时间偏好优化（TPO）框架，以解决长视频理解中的时间基准问题。通过自我训练和偏好学习，显著提升了模型的时间理解能力，展示了TPO在长视频理解中的潜力。

Temporal Preference Optimization for Long Video Understanding

BriefGPT - AI 论文速递 ·

本研究提出了一种半自动化的方法，生成挑战性问答集，以提升长视频理解能力。Neptune 数据集涵盖了广泛的长视频推理能力，基准评估显示现有模型在此数据集上的表现较差，尤其在时间顺序和状态变化等方面，推动了更先进模型的发展。

Neptune: The Long Journey to Benchmarking Long Video Understanding

BriefGPT - AI 论文速递 ·

本研究提出了一种视频检索增强生成（Video-RAG）的方法，旨在解决大型视频语言模型在长视频理解中的局限性。通过视觉对齐的辅助文本，Video-RAG显著提升了跨模态对齐效果，减少了对高质量数据和GPU资源的依赖，并在多个基准测试中表现优异。

Video Retrieval-Augmented Generation: Visually-Aligned Long Video Comprehension

BriefGPT - AI 论文速递 ·

本文探讨了现有模型在视频和语言任务中的局限性，并提出了多个新基准测试（如EgoSchema、MVBench、InfiniBench、E.T.基准和TemporalBench），以评估多模态大型语言模型在长视频理解中的表现。研究表明，现有模型在细粒度时间理解方面与人类存在显著差距，强调了改进的必要性。

一小时视频语言理解

BriefGPT - AI 论文速递 ·

本文介绍了多个新的视频理解基准，包括AGQA、MVBench、MMWorld和TemporalBench，旨在评估多模态语言模型（MLLMs）在视频分析中的表现。研究发现现有模型在时间推理和长视频理解方面存在显著不足，并提出了改进方法和新框架以提升模型性能。

评估多模态基础模型的视觉时间推理能力的TOMATO

BriefGPT - AI 论文速递 ·

智源研究院与多所高校合作推出Video-XL模型，能够高效理解小时级超长视频。该模型仅需一块80G显卡，处理2048帧输入，准确率接近95%。Video-XL在长视频理解任务中表现优异，解决了现有模型的性能和效率问题，未来可广泛应用于电影摘要等领域。

一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源

量子位 ·

本文介绍了多种视觉语言模型（VLM）及其在3D视觉定位、自动驾驶和长视频理解等领域的应用与挑战。提出的新框架和方法，如ViewRefer、Talk2BEV和PerceptionGPT，显著提升了模型性能，尤其在细粒度理解和长视频处理上，解决了现有模型的局限性。

PerspectiveNet：多视角感知动态场景理解

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在长视频理解中的应用，提出了LongVLM和LongVILA等新模型，解决了上下文长度限制和视觉信息丢失的问题。这些模型在视频字幕生成和理解任务中表现优异，展现了广泛的应用前景。

视觉上下文窗口扩展：长视频理解的新视角

BriefGPT - AI 论文速递 ·

本文介绍了一种新的视频问答（VideoQA）框架，结合异构内存和多模态融合层，通过自我更新的注意力实现多步推理，提升了在多个基准数据集上的性能。同时，提出了新的数据集和模型，以改善长视频的理解和推理能力，推动视频问答研究的发展。

自上而下的活动表征学习用于视频问答

BriefGPT - AI 论文速递 ·

本文介绍了针对长视频理解的模型和基准测试，包括 LongVLM、VideoAgent 和 DrVideo。这些模型通过视频分解、层次性记忆机制和文档检索等方法，提高了长视频问答的准确性和效率。研究表明，现有模型在长视频理解上仍面临挑战，新的基准测试 LVBench 和 InfiniBench 旨在推动该领域的发展。

金鱼：对任意长视频的视觉语言理解

BriefGPT - AI 论文速递 ·

该研究引入了多模式视频理解基准（MVBench）和长视频理解基准（LVBench），评估多模态大型语言模型（MLLMs）的性能。结果显示，VideoChat2在MVBench上表现优于其他模型15%。研究指出当前模型在长视频理解方面的不足，并提出新的评估方法，以推动更先进模型的发展。

MMBench-Video：一种用于整体视频理解的长形多镜头基准

BriefGPT - AI 论文速递 ·

本文探讨了通过生成预训练模型优化对象位置和形状建模的视觉先验学习，适用于多种视觉任务。研究显示在长视频理解和多模态生成中显著提升性能，并提出新框架和方法以增强视频与文本的结合效果。

通过生成式预训练学习长形式视频首选权

BriefGPT - AI 论文速递 ·

该研究提出了TimeChat，一种针对长视频理解的时态敏感多模态大型语言模型。通过时间感知帧编码器和滑动视频Q-Former两个关键架构贡献，TimeChat具备作为长视频理解任务的通用视频助手的潜力。

LVCHAT：促进大视频理解

BriefGPT - AI 论文速递 ·