小红花·文摘

条件扩散中的组合泛化的局部机制

Apple Machine Learning Research ·

条件扩散中的组合泛化的局部机制

Apple Machine Learning Research ·

本研究提出了一个理论框架，探讨大型语言模型在下一个标记预测任务中的长度泛化问题，发现每个预测标记依赖于固定数量的前置标记，并提出了“预测位置耦合”方法以提升模型的泛化能力。

The Role of Sparsity in Length Generalization of Transformers

BriefGPT - AI 论文速递 ·

啊！DeepSeek-R1、o3-mini能解奥数题却算不了多位数乘法？

机器之心 ·

本研究分析了语言模型在长度泛化方面的局限，提出傅里叶位置嵌入（FoPE）以增强注意力机制的周期扩展能力。实验结果显示，FoPE在不同上下文窗口下具有更稳定的困惑度和一致的准确性。

Fourier Position Embedding: Enhancing Periodic Extension of Attention for Length Generalization

BriefGPT - AI 论文速递 ·

本研究探讨了自回归变换器基础的文本到语音模型在处理未见长序列时的鲁棒性和长度泛化问题。提出了一种改进方法，通过对齐机制和相对位置信息增强，提升输出的自然性和表达力，解决了重复或丢失单词的问题。

Very Attentive Tacotron: Robustness and Unbounded Length Generalization in Autoregressive Transformer-Based Speech Synthesis

BriefGPT - AI 论文速递 ·

本文研究了解码器Transformer模型在不同位置编码下的长度泛化能力，发现NoPE方法表现优于其他方法，且无需额外计算。相对位置嵌入在简单任务中有效，但在乘法任务中失败。通过引入训练集引导和注意力偏置校准，模型在算术任务上实现了更好的长度泛化。适当的数据格式和位置编码组合显著提升了Transformer在未知长度输入上的表现。

算术变压器可以在操作数长度和数量上实现长度泛化

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在长度泛化方面的能力，提出了统一框架以改善其在算术推理任务中的表现。通过结合上下文学习和记事本提示，发现模型能够有效推广到更长输入。研究分析了影响长度泛化的因素，并提出了注意力偏置校准（ABC）方法，显著提升了模型在未知长度上的性能。

图灵程序的通用长度泛化

BriefGPT - AI 论文速递 ·

本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响。发现NoPE方法在推理和数学任务中表现更优秀，且无需额外计算。同时，scratchpad对解决长度泛化问题并不总是有帮助，其格式对模型性能有很大影响。研究表明解码器-only的Transformer在更长序列上不一定需要显式的位置嵌入。

通过位置编码比较图变换器

BriefGPT - AI 论文速递 ·

本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响。发现NoPE方法在推理和数学任务中表现更优秀，且无需额外计算。同时，scratchpad对解决长度泛化问题并不总是有帮助，其格式对模型性能有很大影响。研究表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长序列上泛化良好。

双石击鸟：双层位置编码实现更好的长度外推

BriefGPT - AI 论文速递 ·

本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响，发现NoPE表现更优秀且无需额外计算。同时，scratchpad对解决长度泛化问题并不总是有帮助，其格式对模型性能有很大影响。解码器-only的Transformer不一定需要显式的位置嵌入以在更长序列上泛化良好。

Transformer 长度外推：以位置编码为视角的调查

BriefGPT - AI 论文速递 ·

本文研究了基于解码器的Transformer模型在使用不同位置编码方式时对长度泛化的影响。发现NoPE表现更优秀，且无需额外计算。同时，scratchpad并不总是有助于解决长度泛化问题，其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。

注意力对齐和灵活位置嵌入改进了 Transformer 长度外推

BriefGPT - AI 论文速递 ·

本文研究了基于解码器的Transformer模型在使用不同位置编码方式时对长度泛化的影响。发现NoPE表现更优秀，无需额外计算，能代表绝对和相对位置嵌入。但在使用SGD训练时，主要呈现T5相对位置嵌入的注意力模式。同时，scratchpad并不总是有助于解决长度泛化问题，其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。

位置编码的局部性与对称性

BriefGPT - AI 论文速递 ·

本文研究了transformer模型在学习算术算法方面的能力，并确定了实现最佳长度泛化的关键因素。通过有针对性的注意力偏置和注意力偏置校准阶段，模型能够自动学习适当的注意力偏置，达到前所未有的完美长度广义。

从插值到外推：算术 Transformer 的完全长度概括

BriefGPT - AI 论文速递 ·

相对位置的功能内插改进长上下文 Transformer

BriefGPT - AI 论文速递 ·