[论文阅读] BLIP2

[论文阅读] BLIP2

💡 原文中文,约6300字,阅读约需15分钟。
📝

内容提要

BLIP-2是一种通用且高效的视觉与语言预训练策略,通过两阶段预训练的轻量Querying Transformer来弥合模态差距。BLIP-2在多个视觉语言任务上取得了SOTA结果,包括图像命名、视觉问答和图像文本检索。模型结构包括图像转换器和文本Transformer。

🎯

关键要点

  • BLIP-2是一种通用且高效的视觉与语言预训练策略。
  • BLIP-2通过两阶段预训练的轻量Querying Transformer弥合模态差距。
  • BLIP-2在多个视觉语言任务上取得了SOTA结果,包括图像命名、视觉问答和图像文本检索。
  • 模型结构包括图像转换器和文本Transformer。
  • 第一阶段从冻结图像编码器学习视觉语言表示,第二阶段从冻结的语言模型学习视觉到语言的生成。
  • Q-Former作为可训练模块,用于提取视觉特征并生成文本。
  • 预训练数据来自多个数据集,包括COCO、Visual Genome等,共计129M图像。
  • BLIP-2在零样本VQA任务上表现优异,超越了Flamingo80B。
  • 在图像命名任务中,BLIP-2通过微调生成文本描述。
  • 在视觉问答中,Q-Former和图像编码器的参数被微调以生成答案。
  • 图像文本检索任务直接微调第一阶段预训练模型,无需LLM。
➡️

继续阅读