北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

AIxiv专栏促进学术交流,报道超过2000篇内容。北京航空航天大学推出TinyLLaVA-Video,模型参数不超过4B,显著降低计算资源需求,支持定制与扩展,性能优于7B+模型,为小规模研究提供便利。该项目坚持完全开源,模块化设计,推动多模态研究发展。

🎯

关键要点

  • AIxiv专栏促进学术交流,报道超过2000篇内容。
  • 北京航空航天大学推出TinyLLaVA-Video,模型参数不超过4B,显著降低计算资源需求。
  • TinyLLaVA-Video支持定制与扩展,性能优于7B+模型,为小规模研究提供便利。
  • 该项目坚持完全开源,模块化设计,推动多模态研究发展。
  • TinyLLaVA-Video公开完整的模型权重、训练代码和训练数据集,降低小规模研究团队的门槛。
  • 项目采用Vision Tower+Connector+LLM框架,保持预训练对齐与监督微调的两阶段训练策略。
  • 训练数据经过多步筛选与过滤,确保高质量,便于有限计算资源的研究者复现实验结果。
  • TinyLLaVA-Video通过简单的视频级Resampler处理长时序视觉序列,支持灵活的视频采样策略。
  • 实验结果表明,TinyLLaVA-Video在多个视频理解基准测试集上表现优于同等训练数据量级下的7B+模型。
  • TinyLLaVA系列项目致力于在有限计算资源下研究小尺寸模型的训练与设计空间,推动多模态研究的发展。

延伸问答

TinyLLaVA-Video的主要特点是什么?

TinyLLaVA-Video是一个小尺寸视频理解框架,模型参数不超过4B,显著降低计算资源需求,支持定制与扩展,性能优于7B+模型。

TinyLLaVA-Video如何支持小规模研究团队?

该项目完全开源,公开模型权重、训练代码和数据集,降低了小规模研究团队的进入门槛。

TinyLLaVA-Video的训练数据是如何处理的?

训练数据经过多步筛选与过滤,确保高质量,最终得到397k的预训练数据和491k的监督微调数据。

TinyLLaVA-Video的模型架构是什么样的?

TinyLLaVA-Video采用Vision Tower+Connector+LLM框架,保持预训练对齐与监督微调的两阶段训练策略。

TinyLLaVA-Video在视频理解基准测试中的表现如何?

实验结果表明,TinyLLaVA-Video在多个视频理解基准测试集上表现优于同等训练数据量级下的7B+模型。

TinyLLaVA-Video如何处理长时序视觉序列?

TinyLLaVA-Video使用简单的视频级Resampler处理长时序视觉序列,支持灵活的视频采样策略。

➡️

继续阅读