变换器在不同深度下能学到什么?对序列学习任务的案例研究
原文中文,约400字,阅读约需1分钟。发表于: 。我们研究了具有不同深度的 transformer 架构的能力,通过设计了一套新的序列学习任务系统地评估和理解深度对 transformer 在记忆、推理、泛化和上下文泛化方面的影响。我们发现只有一个注意力层的 transformer 在记忆方面表现出色,但在其他任务方面表现不足。我们还发现,要表现出推理和泛化能力,transformer...
我们研究了不同深度的transformer架构的能力,发现只有一个注意力层的transformer在记忆方面表现出色,但在其他任务方面表现不足。推理和泛化能力需要至少两个注意力层,上下文泛化能力可能需要三个。我们还确定了单个注意力层可以执行的一类简单操作,并且表明复杂任务可以通过这些操作的组合和多个注意力层的叠加来解决。