克服视觉语言模型微调的问题:针对 OOD 泛化

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

基于生成 Transformer 模型的研究发现,模型在已见过的输入上能成功泛化,但在未见过的情况下失败。研究试图通过修改位置嵌入、微调和引导更广泛或更有指导性的数据等解决方案来弥合这一差距。然而,如果不解决基本机制,对于这些解决方案的鲁棒性几乎没有任何保证。研究发现模型在泛化方面仍然展现出明确的学习代数结构,这表明模型携带有用信息以改善泛化。

原文中文,约500字,阅读约需2分钟。
阅读原文