克服视觉语言模型微调的问题:针对 OOD 泛化

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

基于生成 Transformer 模型的研究发现,模型在已见过的输入上能成功泛化,但在未见过的情况下失败。研究试图通过修改位置嵌入、微调和引导更广泛或更有指导性的数据等解决方案来弥合这一差距。然而,如果不解决基本机制,对于这些解决方案的鲁棒性几乎没有任何保证。研究发现模型在泛化方面仍然展现出明确的学习代数结构,这表明模型携带有用信息以改善泛化。

🎯

关键要点

  • 生成 Transformer 模型在解决问题方面表现出显著熟练度,但其泛化能力尚未完全理解。
  • 研究使用 n 位数加法和乘法等基本数学任务来调查模型的泛化行为。
  • 模型在未见过的 n 位数输入上能够成功泛化,但在更长的未见过情况下失败。
  • 研究尝试通过修改位置嵌入、微调和引导更广泛的数据来改善泛化能力。
  • 如果不解决基本机制,这些解决方案的鲁棒性几乎没有保证。
  • 研究发现强 ID 泛化源于结构化表示,而 OOD 性能不佳的原因仍需探讨。
  • 模型将未见过的 OOD 输入映射到具有 ID 域等价关系的输出,显示出改善泛化的潜力。
➡️

继续阅读