高效的测试时提示微调方法用于视觉-语言模型
原文中文,约600字,阅读约需2分钟。发表于: 。本研究针对现有测试时提示微调方法在推理阶段需要对每个图像进行提示适应所带来的高计算负担问题,提出了Self-TPT框架,利用自监督学习实现高效的提示微调。通过Contrastive Prompt Learning(CPT)任务,自适应类提示显著降低了推理成本,同时在零-shot基准测试中达到了最先进的性能,平衡了效率与效能之间的权衡。
基于Context Optimization (CoOp)的Prompt tuning方式可以通过调整视觉-语言模型(VLMs)的提示符令牌来适应下游任务。提出了一种名为Self-Enhanced Prompt Tuning (SEP) 的新方法,通过调整每个编码器层的可学习提示符令牌,将区分性先验知识融入文本级别和视觉级别的嵌入中。通过全面评估,证实了SEP在提示调整中的有效性。