克服视觉语言模型微调的问题：针对 OOD 泛化

在本论文中，我们首先展示了，经过足够时间的微调但没有适当的正则化，视觉 - 语言模型在给定数据集中往往会过度拟合已知类别，导致对未知类别的表现下降。然后，我们提出了一种新颖的方法 OGEN 来解决这个问题，在关注点主要是改进经过微调模型的未知类别（OOD）泛化能力。具体而言，我们引入了一种类条件特征生成器，通过仅使用任何未知类别的类名，合成 OOD...

基于生成 Transformer 模型的研究发现，模型在已见过的输入上能成功泛化，但在未见过的情况下失败。研究试图通过修改位置嵌入、微调和引导更广泛或更有指导性的数据等解决方案来弥合这一差距。然而，如果不解决基本机制，对于这些解决方案的鲁棒性几乎没有任何保证。研究发现模型在泛化方面仍然展现出明确的学习代数结构，这表明模型携带有用信息以改善泛化。

Transformer 模型位置嵌入学习代数结构微调泛化语言模型