小红花·文摘

基于生成 Transformer 模型的研究发现，模型在已见过的输入上能成功泛化，但在未见过的情况下失败。研究试图通过修改位置嵌入、微调和引导更广泛或更有指导性的数据等解决方案来弥合这一差距。然而，如果不解决基本机制，对于这些解决方案的鲁棒性几乎没有任何保证。研究发现模型在泛化方面仍然展现出明确的学习代数结构，这表明模型携带有用信息以改善泛化。