本文探讨了视觉-语言模型在处理视觉信息时的有效性,尤其是在有限样本情况下的鲁棒性。研究表明,适应方法对文本污染更敏感,而完整微调不一定能提供最佳鲁棒性。提出了小样本微调方法,以提升模型在真实世界数据中的表现,并强调了视觉基础模型在生成与判别任务中的潜力与挑战。
完成下面两步后,将自动完成登录并继续当前操作。