小红花·文摘

本文介绍了图像生成技术的发展，重点讨论了CLIP和BLIP及其变体的结构与训练方法。CLIP通过对比学习实现图像与文本的匹配，BLIP结合理解与生成能力，提升多模态任务表现。BLIP2引入Q-Former模块，优化视觉与语言对齐，InstructBLIP增强指令遵循能力，适应不同任务需求。

图文对比学习的发展史：从CLIP、BLIP、BLIP2、InstructBLIP到具身模型常用的SigLIP

结构之法算法之道 ·

本研究探讨了如何区分模型在微调与预训练中获得的知识。通过混合马尔可夫逻辑网络建立的概率模型显示，BLIP2在微调时对知识的影响较小，表明其具备强大的通用知识获取能力。这为理解多模态系统提供了新思路。

Decoupling Fine-tuning and Pre-training in Visual Captioning under Hybrid Markov Logic

BriefGPT - AI 论文速递 ·

基于BLIP-2框架，开发了一种视觉语言模型，将病理报告文本与切片图像配对，形成图像-文本嵌入空间。该模型在超过35万张去标识化数据上评估，78%的生成文本被病理医师认为准确，展示了语言与WSI嵌入结合的潜力。

将知识概念与全切片图像对齐以实现精确的组织病理图像分析

BriefGPT - AI 论文速递 ·

本文介绍了多模态模型的基本思想、结构和训练数据集情况，并详细介绍了CLIP、BLIP和BLIP2等经典多模态模型。同时，介绍了飞桨多模态框架PaddleMIX和其在VQA和Caption任务中的应用。

一站式解读多模态——Transformer、Embedding、主流模型与通用任务实战（下）

百度大脑 ·

该文介绍了使用CLIP和BLIP-2模型对DataComp挑战赛中的网络爬行数据进行过滤和修改的解决方案，以及利用外部数据集和技巧提高数据质量。实验证明该解决方案在DataComp基线的基础上取得了显著进展，筛选轨道改善了6.6％，BYOD轨道改善了48.5％。

基于图像文本相似度和标题修改的数据比赛挑战：过滤轨道和自带设备轨道的利用

BriefGPT - AI 论文速递 ·

该研究探索了预训练语言与视觉模型在基本语言构造方面的处理程度，并提出了 BLA 评估基准。研究发现，各种类型的基于 Transformer 的系统在零样本设置下难以处理 BLA，但生成型的 BLIP2 在上下文学习环境中显示出有希望的趋势。

本文介绍了 BLiP-2 模型的代码，包括模型架构、训练参数、配置文件和测试评估代码。Blip2TextEncoder 类实现了文本编码为隐藏表示，Blip2Encoder 类实现了图像和文本编码为隐藏表示。在 forward() 函数中，Blip2Encoder 类根据输入类型调用相应的编码器，然后将它们的输出连接并应用 dropout 层。最后，使用融合门控制图像和文本的贡献，并返回输出和注意力值。

blip2代码解析 - Xu_Lin

Xu_Lin ·

图文对比学习的发展史：从CLIP、BLIP、BLIP2、InstructBLIP到具身模型常用的SigLIP

Decoupling Fine-tuning and Pre-training in Visual Captioning under Hybrid Markov Logic

用于临床病理分析的大型视觉语言模型中的高效全面特征提取

将知识概念与全切片图像对齐以实现精确的组织病理图像分析

一站式解读多模态——Transformer、Embedding、主流模型与通用任务实战（下）

基于图像文本相似度和标题修改的数据比赛挑战：过滤轨道和自带设备轨道的利用

BLA 基准：研究预训练多模态模型的基本语言能力

[论文阅读] BLIP2

blip2代码解析 - Xu_Lin