小红花·文摘

斯坦福CS336：从零开始的语言建模 | 2025年春季 | 架构与超参数

Josherich的博客 ·

本文研究了基于解码器的Transformer模型在使用不同位置编码方式时对长度泛化的影响。发现NoPE表现更优秀，无需额外计算，能代表绝对和相对位置嵌入。但在使用SGD训练时，主要呈现T5相对位置嵌入的注意力模式。同时，scratchpad并不总是有助于解决长度泛化问题，其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。

位置编码的局部性与对称性

BriefGPT - AI 论文速递 ·