给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

💡 原文中文,约5000字,阅读约需12分钟。
📝

内容提要

浙大与阿里巴巴达摩院联合开发的多模态知识语料,通过22000小时的教学视频生成高质量教科书,显著提升视觉语言模型(VLMs)的学习和推理能力。研究表明,优质的无监督数据对VLMs性能提升至关重要。

🎯

关键要点

  • 浙大与阿里巴巴达摩院联合开发多模态知识语料,利用22000小时教学视频生成高质量教科书。
  • 高质量的无监督数据对视觉语言模型(VLMs)的性能提升至关重要。
  • 当前多模态大模型的预训练语料主要有图像-文本对和图文交织两种形式。
  • 现有的图文交织语料存在文本与图像关系松散、逻辑连贯性差和知识密度低的问题。
  • 教学视频包含丰富的知识,尚未被充分利用,构建高质量的图文交织数据集非常必要。
  • 研究团队创建了四层知识分类体系,涵盖多个学科和知识点,利用LLM辅助收集教学视频。
  • 设计了多层级的处理流程,将教学视频转化为多模态教科书,确保数据质量和知识密集性。
  • 最终生成了6.5M个关键帧、258M ASR tokens和500M OCR tokens,样本内图像之间的相似度显著高于先前数据集。
  • 在多个基准上,使用新生成的教科书数据集进行预训练的模型性能显著提升。
  • 通过作弊测试验证了VLMs对图文交织上下文的感知能力,显示出新数据集的优势。
  • 研究表明,利用教学视频生成的教科书能够有效提升VLMs的上下文感知和数学推理能力。
  • 未来可探索利用这些教科书语料实现任意模态的连续生成,构建更好的世界模型。
➡️

继续阅读