变形金刚何时能够通过抽象符号进行推理？

调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务，我们证明了 Transformer 在训练时具有泛化性，但需要大量的训练数据；对于具有符号标签的 (ii) 下一个令牌预测任务，我们展示了一种 “反比例尺律”：随着嵌入维度的增加，Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况，我们提出了微妙的...

该研究探讨了Transformer在抽象符号关系推理任务中的表现。研究发现，Transformer需要大量训练数据才能泛化，且随着嵌入维度的增加，泛化能力下降。研究提出了微调Transformer的方法，通过添加可训练参数来减少所需数据量。

Transformer 关系推理可训练参数泛化性训练数据