小红花·文摘

本文探讨了视觉-语言模型在处理视觉信息时的有效性，尤其是在有限样本情况下的鲁棒性。研究表明，适应方法对文本污染更敏感，而完整微调不一定能提供最佳鲁棒性。提出了小样本微调方法，以提升模型在真实世界数据中的表现，并强调了视觉基础模型在生成与判别任务中的潜力与挑战。