机器之心 ·

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

浙大与阿里巴巴达摩院联合开发的多模态知识语料，通过22000小时的教学视频生成高质量教科书，显著提升视觉语言模型（VLMs）的学习和推理能力。研究表明，优质的无监督数据对VLMs性能提升至关重要。

🎯

关键要点

浙大与阿里巴巴达摩院联合开发多模态知识语料，利用22000小时教学视频生成高质量教科书。
高质量的无监督数据对视觉语言模型（VLMs）的性能提升至关重要。
当前多模态大模型的预训练语料主要有图像-文本对和图文交织两种形式。
现有的图文交织语料存在文本与图像关系松散、逻辑连贯性差和知识密度低的问题。
教学视频包含丰富的知识，尚未被充分利用，构建高质量的图文交织数据集非常必要。
研究团队创建了四层知识分类体系，涵盖多个学科和知识点，利用LLM辅助收集教学视频。
设计了多层级的处理流程，将教学视频转化为多模态教科书，确保数据质量和知识密集性。
最终生成了6.5M个关键帧、258M ASR tokens和500M OCR tokens，样本内图像之间的相似度显著高于先前数据集。
在多个基准上，使用新生成的教科书数据集进行预训练的模型性能显著提升。
通过作弊测试验证了VLMs对图文交织上下文的感知能力，显示出新数据集的优势。
研究表明，利用教学视频生成的教科书能够有效提升VLMs的上下文感知和数学推理能力。
未来可探索利用这些教科书语料实现任意模态的连续生成，构建更好的世界模型。

❓

延伸问答

如何利用教学视频生成高质量的多模态教科书？

通过收集和处理教学视频，提取关键帧和音频，转录成文本，并将其组织成图文交织的格式，最终生成多模态教科书。

多模态知识语料对视觉语言模型的影响是什么？

高质量的多模态知识语料显著提升了视觉语言模型的学习和推理能力，尤其在上下文感知和数学推理方面表现突出。

当前多模态大模型的预训练语料主要有哪些形式？

主要有图像-文本对和图文交织两种形式，后者更自然地处理任意输入。

研究团队如何确保生成数据的高质量和知识密集性？

通过设计多层级的处理流程，过滤低质量视频，确保转录文本的流畅性和相关性，从而提高数据质量。

新生成的教科书数据集在模型预训练中的表现如何？

使用新生成的教科书数据集进行预训练的模型在多个基准上表现出显著提升，尤其在知识导向和推理相关基准上。

未来如何利用这些教科书语料进行研究？

可以探索利用这些教科书语料实现任意模态的连续生成，构建更好的世界模型。

🏷️

继续阅读

麻省理工学院研究人员教AI模型解读图表
MIT和IBM研究人员开发了ChartNet数据集，包含超过一百万种多样化图表，旨在提升视觉语言模型对图表的理解能力。该数据集通过合成数据生成，帮助小型企...
从任意视角探索场景：3D体积视频技术突破意味着3D流媒体可能很快成为现实
布朗大学研究人员推出了名为PackUV的3D体积视频处理方法，旨在实现可存储、流式传输的逼真3D视频。该技术通过多台摄像机拍摄场景，并利用算法重建三维空间...
App+1 | 零基础 3 分钟在线搞定产品演示视频：Mockup Studio
Mockup Studio 是一个在线工具，用户可以快速制作产品展示视频，只需拖入录屏并调整样式即可导出成品。该工具简化了视频制作流程，适合开发者和产品经...
Lumine Group 达成协议，将从 Synamedia 收购其视频网络业务
Lumine Group宣布收购Synamedia的视频网络业务，这是其第16笔企业剥离交易，旨在增强其在媒体供应链中的布局，专注于视频处理和直播流媒体。...
大模型企业扎堆IPO：智谱MiniMax冲刺A股，Anthropic抢先OpenAI递表
2026年6月，全球人工智能市场迎来大模型上市热潮。中国智谱与MiniMax启动A股IPO，美国Anthropic也向SEC提交上市申请。智谱计划募资15...
在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...