小红花·文摘

尽管大型语言模型在复杂任务中表现出色，但处理简单的数学问题仍有困难。通过规则遵循微调，成功地将1-5位数加法推广到12位数加法，准确率超过95%，比使用scratchpad提高了40%以上。

基于案例或规则：Transformer 模型如何进行数学计算？

BriefGPT - AI 论文速递 ·

本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响，发现NoPE表现更优秀且无需额外计算。同时，scratchpad对解决长度泛化问题并不总是有帮助，其格式对模型性能有很大影响。解码器-only的Transformer不一定需要显式的位置嵌入以在更长序列上泛化良好。

Transformer 长度外推：以位置编码为视角的调查

BriefGPT - AI 论文速递 ·

本文研究了基于解码器的Transformer模型在使用不同位置编码方式时对长度泛化的影响。发现NoPE表现更优秀，且无需额外计算。同时，scratchpad并不总是有助于解决长度泛化问题，其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。

注意力对齐和灵活位置嵌入改进了 Transformer 长度外推

BriefGPT - AI 论文速递 ·

本文研究了基于解码器的Transformer模型在使用不同位置编码方式时对长度泛化的影响。发现NoPE表现更优秀，无需额外计算，能代表绝对和相对位置嵌入。但在使用SGD训练时，主要呈现T5相对位置嵌入的注意力模式。同时，scratchpad并不总是有助于解决长度泛化问题，其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。

相对位置的功能内插改进长上下文 Transformer

BriefGPT - AI 论文速递 ·