基于生成 Transformer 模型的研究发现,模型在已见过的输入上能成功泛化,但在未见过的情况下失败。研究试图通过修改位置嵌入、微调和引导更广泛或更有指导性的数据等解决方案来弥合这一差距。然而,如果不解决基本机制,对于这些解决方案的鲁棒性几乎没有任何保证。研究发现模型在泛化方面仍然展现出明确的学习代数结构,这表明模型携带有用信息以改善泛化。
完成下面两步后,将自动完成登录并继续当前操作。