通过信息内容缩放考察双跳推理

📝

内容提要

本研究探讨了变换器在学习潜在双跳问题(如“鲍勃母亲的老板是谁?”)时的能力变化,发现其能力和泛化特性表明双跳问题需要变换器重复学习每个事实,而使用链式思维的双跳问题则不然。此外,实验表明,通过适当的参数设置,可以使小模型在独立记忆答案的情况下表现较好,这为理解变换器的知识容量提供了新思路。

➡️

继续阅读