小红花·文摘

长上下文长度的旋转位置嵌入

MachineLearningMastery.com ·

斯坦福CS336：从零开始的语言建模 | 2025年春季 | 架构与超参数

Josherich的博客 ·

本研究探讨了开源大型语言模型（LLMs）在有效上下文长度不足的问题。通过引入ShifTed Rotray position embeddING（STRING）优化位置嵌入，显著提升了模型性能。实验结果表明，STRING在不额外训练的情况下，改善了模型在长上下文基准测试中的表现，创造了新的最优结果。

Why Is the Effective Context Length of Large Language Models Insufficient?

BriefGPT - AI 论文速递 ·

本文介绍了一种高效的变压器架构，通过增强位置嵌入，在减少层数的情况下提升性能。结合位置编码与可训练标记嵌入，并对其归一化，显著改善了训练和验证的损失及时间。

用于语言模型的高效变压器加强位置嵌入

BriefGPT - AI 论文速递 ·

本文介绍了多种扩展大型语言模型（LLMs）上下文窗口的方法，如Position Interpolation、YaRN和PoSE。这些方法显著提高了模型在长上下文任务中的性能，降低了训练成本，并支持更大的上下文窗口（如128k和2048k tokens）。研究表明，位置嵌入在模型中至关重要，未来将继续探索其潜力。

从分布视角扩展大语言模型的上下文窗口

BriefGPT - AI 论文速递 ·

公理训练让LLM学会因果推理：6700万参数模型比肩万亿参数级GPT-4

机器之心 ·

本文提出了翻译不变的自注意力模型（TISA），通过考虑标记之间的相对位置，解决了现有语言模型的位置嵌入问题。实验结果显示，TISA在GLUE任务上的性能优于ALBERT模型。

位置知识是一切所需：面向操作员学习的位置感知变压器 (PiT)

BriefGPT - AI 论文速递 ·

基于生成 Transformer 模型的研究发现，模型在已见过的输入上能成功泛化，但在未见过的情况下失败。研究试图通过修改位置嵌入、微调和引导更广泛或更有指导性的数据等解决方案来弥合这一差距。然而，如果不解决基本机制，对于这些解决方案的鲁棒性几乎没有任何保证。研究发现模型在泛化方面仍然展现出明确的学习代数结构，这表明模型携带有用信息以改善泛化。

克服视觉语言模型微调的问题：针对 OOD 泛化

BriefGPT - AI 论文速递 ·