小红花·文摘

本文介绍了图像生成技术的发展，重点讨论了CLIP和BLIP及其变体的结构与训练方法。CLIP通过对比学习实现图像与文本的匹配，BLIP结合理解与生成能力，提升多模态任务表现。BLIP2引入Q-Former模块，优化视觉与语言对齐，InstructBLIP增强指令遵循能力，适应不同任务需求。

图文对比学习的发展史：从CLIP、BLIP、BLIP2、InstructBLIP到具身模型常用的SigLIP

结构之法算法之道 ·

本研究探讨了如何区分模型在微调与预训练中获得的知识。通过混合马尔可夫逻辑网络建立的概率模型显示，BLIP2在微调时对知识的影响较小，表明其具备强大的通用知识获取能力。这为理解多模态系统提供了新思路。

Decoupling Fine-tuning and Pre-training in Visual Captioning under Hybrid Markov Logic

BriefGPT - AI 论文速递 ·

本文介绍了多模态模型的基本思想、结构和训练数据集情况，并详细介绍了CLIP、BLIP和BLIP2等经典多模态模型。同时，介绍了飞桨多模态框架PaddleMIX和其在VQA和Caption任务中的应用。

一站式解读多模态——Transformer、Embedding、主流模型与通用任务实战（下）

百度大脑 ·

该研究探索了预训练语言与视觉模型在基本语言构造方面的处理程度，并提出了 BLA 评估基准。研究发现，各种类型的基于 Transformer 的系统在零样本设置下难以处理 BLA，但生成型的 BLIP2 在上下文学习环境中显示出有希望的趋势。

本文介绍了 BLiP-2 模型的代码，包括模型架构、训练参数、配置文件和测试评估代码。Blip2TextEncoder 类实现了文本编码为隐藏表示，Blip2Encoder 类实现了图像和文本编码为隐藏表示。在 forward() 函数中，Blip2Encoder 类根据输入类型调用相应的编码器，然后将它们的输出连接并应用 dropout 层。最后，使用融合门控制图像和文本的贡献，并返回输出和注意力值。

blip2代码解析 - Xu_Lin

Xu_Lin ·

图文对比学习的发展史：从CLIP、BLIP、BLIP2、InstructBLIP到具身模型常用的SigLIP

Decoupling Fine-tuning and Pre-training in Visual Captioning under Hybrid Markov Logic

一站式解读多模态——Transformer、Embedding、主流模型与通用任务实战（下）

BLA 基准：研究预训练多模态模型的基本语言能力

[论文阅读] BLIP2

blip2代码解析 - Xu_Lin