图文对比学习的发展史:从CLIP、BLIP、BLIP2、InstructBLIP到具身模型常用的SigLIP

💡 原文中文,约13500字,阅读约需32分钟。
📝

内容提要

本文介绍了图像生成技术的发展,重点讨论了CLIP和BLIP及其变体的结构与训练方法。CLIP通过对比学习实现图像与文本的匹配,BLIP结合理解与生成能力,提升多模态任务表现。BLIP2引入Q-Former模块,优化视觉与语言对齐,InstructBLIP增强指令遵循能力,适应不同任务需求。

🎯

关键要点

  • 图像生成技术的发展,重点讨论CLIP和BLIP及其变体的结构与训练方法。
  • CLIP通过对比学习实现图像与文本的匹配,具有强大的zero-shot分类能力。
  • BLIP结合理解与生成能力,提升多模态任务表现,采用encoder-decoder结构。
  • BLIP2引入Q-Former模块,优化视觉与语言对齐,分为表示学习和生成学习两个阶段。
  • InstructBLIP增强指令遵循能力,适应不同任务需求,通过指令微调Q-Former模块。
  • BLIP和BLIP2的训练数据来源于Web,采用Captioning and Filtering模块减少噪声。
  • MiniGPT-4结合LLaMA微调的Vicuna与BLIP2,增加线性投影层以对齐视觉与语言模型。

延伸问答

CLIP模型的主要功能是什么?

CLIP模型通过对比学习实现图像与文本的匹配,具有强大的zero-shot分类能力。

BLIP模型是如何结合理解与生成能力的?

BLIP模型结合了encoder和decoder,形成统一的理解与生成多模态模型,能够同时处理理解和生成任务。

BLIP2引入了什么新模块?

BLIP2引入了Q-Former模块,优化视觉与语言对齐,分为表示学习和生成学习两个阶段。

InstructBLIP与BLIP2有什么区别?

InstructBLIP在提取视觉特征时采用了指令感知的方法,能够根据任务指令生成最适合的视觉表示,而BLIP2则是指令无关的。

BLIP和BLIP2的训练数据来源是什么?

BLIP和BLIP2的训练数据主要来源于Web,采用Captioning and Filtering模块减少噪声。

MiniGPT-4的模型结构是怎样的?

MiniGPT-4的模型结构由一个语言模型拼接一个视觉模型,最后加一个线性投影层来对齐视觉与语言特征。

➡️

继续阅读