双对齐下的上下文感知视觉 - 语言模型提示调优
原文中文,约200字,阅读约需1分钟。发表于: 。利用双重对齐提示调整 (DuAl-PT),结合大规模视觉语言模型和预训练大型语言模型,在少样本识别和基于新样本泛化上取得了卓越的性能,为未来研究提供了强有力的基准。
该研究提出了一种名为UPT的方法,通过学习微小的神经网络来联合优化跨不同模态的提示,取得了较好的few-shot learning和domain generalization的效果。在11个视觉数据集上进行了测试。
利用双重对齐提示调整 (DuAl-PT),结合大规模视觉语言模型和预训练大型语言模型,在少样本识别和基于新样本泛化上取得了卓越的性能,为未来研究提供了强有力的基准。
该研究提出了一种名为UPT的方法,通过学习微小的神经网络来联合优化跨不同模态的提示,取得了较好的few-shot learning和domain generalization的效果。在11个视觉数据集上进行了测试。