变形金刚何时能够通过抽象符号进行推理?
原文中文,约400字,阅读约需1分钟。发表于: 。调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务,我们证明了 Transformer 在训练时具有泛化性,但需要大量的训练数据;对于具有符号标签的 (ii) 下一个令牌预测任务,我们展示了一种 “反比例尺律”:随着嵌入维度的增加,Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况,我们提出了微妙的...
该研究探讨了Transformer在抽象符号关系推理任务中的表现。研究发现,Transformer需要大量训练数据才能泛化,且随着嵌入维度的增加,泛化能力下降。研究提出了微调Transformer的方法,通过添加可训练参数来减少所需数据量。