研究发现,Transformer语言模型在学习离散算法方面的能力有限,效果不如重新学习所有子任务。复杂性理论的定理证明了在记忆前馈模型上的梯度下降可能在数据效率上低效。
我们研究了Transformer语言模型在学习离散算法方面的能力。发现最先进的Transformer语言模型在组合能力上有限,效果不如重新学习所有子任务。同时证明了记忆前馈模型上的梯度下降可能在数据效率上指数级低效。
完成下面两步后,将自动完成登录并继续当前操作。