小红花·文摘

本研究提出了一个理论框架，探讨大型语言模型在下一个标记预测任务中的长度泛化问题，发现每个预测标记依赖于固定数量的前置标记，并提出了“预测位置耦合”方法以提升模型的泛化能力。