结构之法算法之道 ·

图文对比学习的发展史：从CLIP、BLIP、BLIP2、InstructBLIP到具身模型常用的SigLIP

💡 原文中文，约13500字，阅读约需32分钟。

📝

内容提要

本文介绍了图像生成技术的发展，重点讨论了CLIP和BLIP及其变体的结构与训练方法。CLIP通过对比学习实现图像与文本的匹配，BLIP结合理解与生成能力，提升多模态任务表现。BLIP2引入Q-Former模块，优化视觉与语言对齐，InstructBLIP增强指令遵循能力，适应不同任务需求。

🎯

🔎

随着图像生成技术的发展，多模态模型如CLIP和BLIP逐渐成为研究热点。CLIP通过对比学习实现图像与文本的匹配，而BLIP则结合了理解与生成能力，适应多种任务需求。这种演变不仅提升了模型的性能，也为实际应用提供了更多可能性，如图像-文本检索和生成任务。

CLIP和BLIP的成功在于其训练数据的质量和规模。CLIP使用了4亿对高质量的文本-图像对，而BLIP则通过Captioning and Filtering模块减少噪声，提升数据质量。这表明，数据的选择和处理在模型性能中起着至关重要的作用，未来的研究应更加关注数据集的构建与优化。

InstructBLIP通过指令微调增强了模型的指令遵循能力，使其能够根据不同任务生成更合适的视觉表示。这种方法的灵活性使得模型在多样化任务中表现更佳，提示了未来多模态模型在特定应用场景中的潜力。

❓

CLIP模型通过对比学习实现图像与文本的匹配，具有强大的zero-shot分类能力。

BLIP模型结合了encoder和decoder，形成统一的理解与生成多模态模型，能够同时处理理解和生成任务。

BLIP2引入了Q-Former模块，优化视觉与语言对齐，分为表示学习和生成学习两个阶段。

InstructBLIP在提取视觉特征时采用了指令感知的方法，能够根据任务指令生成最适合的视觉表示，而BLIP2则是指令无关的。

BLIP和BLIP2的训练数据主要来源于Web，采用Captioning and Filtering模块减少噪声。

MiniGPT-4的模型结构由一个语言模型拼接一个视觉模型，最后加一个线性投影层来对齐视觉与语言特征。

🏷️