小红花·文摘

本文探讨了视觉语言模型在使用预训练图像编码器时的图像理解错误问题，提出了新方法LoRSU（带结构更新的低秩适应），有效选择性更新图像编码器。研究表明，LoRSU在资源受限环境中显著提升计算效率，开销减少超过25倍，同时保持性能，成为图像编码器适应的重要解决方案。

Efficient Few-Shot Continual Learning in Vision-Language Models

BriefGPT - AI 论文速递 ·

谷歌发布PaliGemma 2视觉语言模型系列

InfoQ ·

PaliGemma是一个开放的视觉语言模型，结合了SigLIP和Gemma-2B，旨在提升视觉-语言任务的性能。它由图像编码器、语言模型和线性层组成，经过多阶段预训练以优化表现。

多模态PaliGemma 2(含1代)：Google推出的基于SigLIP和Gemma 2的视觉语言模型(附SigLIP详解)

结构之法算法之道 ·

本文介绍了一种新的医学图像配准方法DINO-Reg，该方法利用训练免费的图像编码器，首次将通用视觉模型应用于医学图像配准，显著提升了注册的准确性和适应性。提出的RAD-DINO编码器在多项基准测试中优于传统模型，展示了深度学习在医学图像处理中的潜力。

以一般视觉编码器特征为导向的医学图像配准

BriefGPT - AI 论文速递 ·

该论文提出了一种将大型语言模型（LLM）与图像编码器和解码器结合的方法，实现多模态图像检索和生成。通过视觉到语言的分词器，LLM能够理解视觉信号，进行图像去噪和恢复，且无需微调。研究表明，该方法在图像分类和生成任务中表现优越，提升了多样性和语义保留能力。

大语言模型驱动的文本到图像生成的实证研究与分析

BriefGPT - AI 论文速递 ·

本文探讨了一种生成通用对抗性攻击的方法，旨在干扰语义分割模型的掩码预测。研究提出了一种简单有效的攻击策略，重点关注图像编码器，并通过正则化损失增强特征传递性。此外，利用无监督学习和基于Vision Transformer的模型，构建了高效的图像分割框架，以推动工业4.0转型。

通过模拟变形实现非分割

BriefGPT - AI 论文速递 ·

本研究探讨了CLIP网络中单词图片和自然图片的表征，发现图像编码器可以匹配描述相符的自然图片。同时，提出了一种有效的方法来排除拼写能力，并在检索任务和生成图片方面进行了验证。

Impression-CLIP：用于字体的对比形象嵌入

BriefGPT - AI 论文速递 ·

本研究通过使用PCL损失直接微调CLIP的图像编码器，提高了物体再识别的表现，无需prompt learning。实验结果表明，该方法在人物和车辆Re-ID数据集上具有竞争力，并在无监督场景中表现优异。

CLIP 引导的图像感知式提示学习用于图像增强

BriefGPT - AI 论文速递 ·

PaLI-3是一种更小、更快、更强的视觉语言模型，具有更好的比较性能。SigLIP预训练模型的PaLI在标准图像分类基准上略有弱势，但在多模态基准测试中表现出优越的性能，特别是在定位和视觉文本理解方面。SigLIP图像编码器已扩展到20亿参数，并在多语言交叉模态检索方面取得了新的最先进水平。希望PaLI-3能够推动新一代扩展模型的发展。

PaLI-3 视觉语言模型：更小、更快、更强

BriefGPT - AI 论文速递 ·

本文研究了CLIP图像编码器，分解了图像表示为各个图像块、模型层和注意力头之间的总和，并利用CLIP的文本表示来解释各个部分。通过解释注意力头和图像块，揭示了CLIP中的空间定位和许多头的特定角色。最后，利用这一理解，从CLIP中去除虚假特征，并创建了一个强大的零样本图像分割器。

通过基于文本的分解解释 CLIP 的图像表示

BriefGPT - AI 论文速递 ·