跨模态调整多模式令牌级提示对齐
原文中文,约200字,阅读约需1分钟。发表于: 。利用最优传输的多模式令牌级调优框架,发现了多种视觉概念,实现了精确的语义对齐,优于传统方法。
该研究提出了一种名为UPT的方法,通过学习微小的神经网络来联合优化跨不同模态的提示,取得了较好的few-shot learning和domain generalization的效果。在11个视觉数据集上进行了测试。
利用最优传输的多模式令牌级调优框架,发现了多种视觉概念,实现了精确的语义对齐,优于传统方法。
该研究提出了一种名为UPT的方法,通过学习微小的神经网络来联合优化跨不同模态的提示,取得了较好的few-shot learning和domain generalization的效果。在11个视觉数据集上进行了测试。