算术变压器可以在操作数长度和数量上实现长度泛化
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了变压器在长度泛化方面的不足,特别是在多操作数加法和乘法任务中。通过设计特定任务的临时缓存和多层位置耦合的方法,我们首次在算术变压器上实现了约2-3倍的长度泛化。该工作可能在推进算术理解模型能力方面产生重要影响。
本文研究解码器Transformer模型在不同位置编码下的长度泛化效果,发现NoPE在推理和数学任务中表现优异,无需额外计算。NoPE可表示绝对和相对位置嵌入,主要呈现T5相对位置模式。scratchpad格式对性能影响大,不总是有助于长度泛化。研究表明解码器-only的Transformer无需显式位置嵌入即可在长序列上泛化良好。