北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型，代码、模型、训练数据全开源

机器之心 ·

北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型，代码、模型、训练数据全开源

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

AIxiv专栏促进学术交流，报道超过2000篇内容。北京航空航天大学推出TinyLLaVA-Video，模型参数不超过4B，显著降低计算资源需求，支持定制与扩展，性能优于7B+模型，为小规模研究提供便利。该项目坚持完全开源，模块化设计，推动多模态研究发展。

🎯

关键要点

AIxiv专栏促进学术交流，报道超过2000篇内容。
北京航空航天大学推出TinyLLaVA-Video，模型参数不超过4B，显著降低计算资源需求。
TinyLLaVA-Video支持定制与扩展，性能优于7B+模型，为小规模研究提供便利。
该项目坚持完全开源，模块化设计，推动多模态研究发展。
TinyLLaVA-Video公开完整的模型权重、训练代码和训练数据集，降低小规模研究团队的门槛。
项目采用Vision Tower+Connector+LLM框架，保持预训练对齐与监督微调的两阶段训练策略。
训练数据经过多步筛选与过滤，确保高质量，便于有限计算资源的研究者复现实验结果。
TinyLLaVA-Video通过简单的视频级Resampler处理长时序视觉序列，支持灵活的视频采样策略。
实验结果表明，TinyLLaVA-Video在多个视频理解基准测试集上表现优于同等训练数据量级下的7B+模型。
TinyLLaVA系列项目致力于在有限计算资源下研究小尺寸模型的训练与设计空间，推动多模态研究的发展。

❓

延伸问答

TinyLLaVA-Video的主要特点是什么？

TinyLLaVA-Video是一个小尺寸视频理解框架，模型参数不超过4B，显著降低计算资源需求，支持定制与扩展，性能优于7B+模型。

TinyLLaVA-Video如何支持小规模研究团队？

该项目完全开源，公开模型权重、训练代码和数据集，降低了小规模研究团队的进入门槛。

TinyLLaVA-Video的训练数据是如何处理的？

训练数据经过多步筛选与过滤，确保高质量，最终得到397k的预训练数据和491k的监督微调数据。

TinyLLaVA-Video的模型架构是什么样的？

TinyLLaVA-Video采用Vision Tower+Connector+LLM框架，保持预训练对齐与监督微调的两阶段训练策略。

TinyLLaVA-Video在视频理解基准测试中的表现如何？

实验结果表明，TinyLLaVA-Video在多个视频理解基准测试集上表现优于同等训练数据量级下的7B+模型。

TinyLLaVA-Video如何处理长时序视觉序列？

TinyLLaVA-Video使用简单的视频级Resampler处理长时序视觉序列，支持灵活的视频采样策略。

🏷️

继续阅读

[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
Crown Engine 0.63 恢复了其 OpenGL 渲染器，以支持旧版硬件
Crown Engine 0.63 是一款基于 C++ 的开源游戏引擎，新增 LOD 组组件以优化性能，并支持 OBJ 网格格式。更新改进了 FBX 导入...
Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
2026年数据与AI峰会：金融服务领导者的内部指南
2026年数据与AI峰会将于6月15日至18日在旧金山举行，聚焦金融服务行业的AI转型与现代化，主要议题包括保险承保、负责任的AI应用及资本市场智能化。与...
阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...