小红花·文摘

该论文介绍了一种名为multi-grained vision language pre-training的视觉语言联合预训练方法，以及一个名为X$^2$-VLM的预训练模型。该方法在多个粒度上学习视觉语言对齐，实现了图像文本任务和视频文本任务之间的良好平衡。该模型具有高可转移性，适用于任何语言或领域。

ViTamin：设计可扩展的视觉模型在视觉语言时代

BriefGPT - AI 论文速递 ·

本文介绍了一种视觉与语言参数高效调整（VL-PET）框架，用于在预训练语言模型中整合模块化修改。该框架通过粒度控制机制实例化多种与模型无关的VL-PET模块，提高效率和效果。实验证明，VL-PET框架在图像-文本任务上相比现有技术有显著性能提升。

引入路由功能以低秩瓶颈优化视觉语言参数高效微调

BriefGPT - AI 论文速递 ·

本文介绍了视觉与语言参数高效调整（VL-PET）框架，通过粒度控制机制对模块化修改进行控制。实验证明，VL-PET在图像-文本任务上优于VL-Adapter和LoRA。采用VL-PET设计还可以增强现有PET技术的效果。

有效梯度逼近下的视觉 - 语言模型的黑盒调优

BriefGPT - AI 论文速递 ·

本文介绍了一种名为VL-PET的框架，可高效调整视觉和语言参数，通过粒度控制机制对模块化修改进行控制。实验证明其效率、效果和可转移性。VL-PET-large和轻量级PET模块在图像-文本任务上分别提升了2.92%和3.41%，在T5-base模型上提升了7.03%。该框架还可以增强现有PET技术的效果。

ConPET: 大型语言模型的连续参数高效调整

BriefGPT - AI 论文速递 ·

本文介绍了一种名为VL-PET的框架，可通过粒度控制机制对模块化修改的效果进行有效控制，以提高模型的效率和效果。作者还提出了轻量级PET模块设计，以增强编码器的VL对齐和建模能力，并保持解码器的文本生成能力。实验证明，VL-PET框架在图像-文本任务上相比VL-Adapter和LoRA有更好的性能提升。

动态视觉提示调整用于参数高效的迁移学习

BriefGPT - AI 论文速递 ·