机器之心 ·

突破视频多模态大模型瓶颈！「合成数据」立大功，项目已开源

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

本文介绍了LLaVA-Video-178K数据集，这是为视频指令跟随任务设计的高质量合成数据集。数据集包含视频描述、开放式问答和多项选择题，旨在提升视频多模态模型性能。通过在该数据集上训练，LLaVA-Video在多个视频基准上表现优异。其优势包括动态视频集合、高帧率和多样化任务。研究还开发了LLaVA-Video_SlowFast方法优化视频表示，实验结果显示其在多个评测集上表现出色。

🎯

关键要点

LLaVA-Video-178K数据集是为视频指令跟随任务设计的高质量合成数据集。
数据集包含视频描述、开放式问答和多项选择题，旨在提升视频多模态模型性能。
LLaVA-Video在多个视频基准上表现优异，展示了该数据集的有效性。
数据集包含178K个视频和1.3M个指令跟随样本，涵盖丰富的动态视频和多样化任务。
使用GPT-4o系统自动生成视频详细描述和问答对，提高视频理解模型的能力。
LLaVA-Video-178K在动态视频集合、高帧率和多样化任务方面具有显著优势。
研究开发了LLaVA-Video_SlowFast方法以优化视频表示，平衡帧数和视觉token数量。
实验结果显示LLaVA-Video在多个评测集上表现出色，验证了数据集的有效性。

❓

延伸问答

LLaVA-Video-178K数据集的主要特点是什么？

LLaVA-Video-178K数据集包含178K个视频和1.3M个指令跟随样本，涵盖丰富的动态视频和多样化任务，旨在提升视频多模态模型性能。

LLaVA-Video如何提升视频理解模型的能力？

LLaVA-Video通过使用GPT-4o系统自动生成视频详细描述和问答对，提高了视频理解模型的感知和推理能力。

LLaVA-Video-178K数据集与其他视频语言数据集相比有什么优势？

LLaVA-Video-178K在动态视频集合、高帧率和多样化任务方面具有显著优势，确保了更高的样本质量和数量。

LLaVA-Video_SlowFast方法的目的是什么？

LLaVA-Video_SlowFast方法旨在优化视频表示，平衡帧数和视觉token数量，以适应LLM的上下文窗口限制和GPU内存限制。

LLaVA-Video-178K数据集包含哪些类型的问题？

数据集包含开放式问答和多项选择题，设计用于复杂交互，涵盖16种问题类型。

LLaVA-Video在评测集上的表现如何？

实验结果显示LLaVA-Video在多个评测集上表现出色，验证了数据集的有效性。

🏷️

继续阅读

微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...
大模型企业扎堆IPO：智谱MiniMax冲刺A股，Anthropic抢先OpenAI递表
2026年6月，全球人工智能市场迎来大模型上市热潮。中国智谱与MiniMax启动A股IPO，美国Anthropic也向SEC提交上市申请。智谱计划募资15...
在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...
字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手
字节推出了开源视频生成与编辑框架Bernini，强调“先理解再生成”。该框架利用多模态大模型进行语义理解，并通过扩散模型实现高质量渲染，解决视频编辑中的一...
早期基准测试数据显示英伟达RTX SPARK N1X芯片性能相当于苹果M3 MAX
英伟达RTX SPARK N1X芯片的早期基准测试显示，其性能与苹果M3 MAX相当。N1X拥有20个核心，而M3 MAX则为14个核心。尽管M3 MAX...
在视频时代，认真拍一张照片：OPPO Find X9 Ultra 影像漫谈
OPPO Find X9 Ultra手机强调光学摄影，结合哈苏影像哲学，追求真实色彩和明暗关系。其LUMO凝光引擎处理暗部细节，保留真实影调，新胶片风格和...