小红花·文摘

本文介绍了一种基于多模态深度共生的提示微调方法，结合视觉和语言模型，提升了图像识别和泛化能力。提出的动态视觉提示调整框架在多项下游任务中表现优异，超越了传统微调方法，展现出良好的参数效率和适应性。