小红花·文摘

本文探讨了长上下文模型的工程挑战与解决方案，包括位置编码、注意力计算复杂度、训练策略和推理优化。随着上下文长度增加，模型面临计算复杂度和显存限制。采用RoPE、YaRN等技术扩展位置编码，并结合线性注意力和稀疏注意力优化计算效率。在训练方面，采用短预训练与长继续预训练相结合的策略，推理时利用前缀缓存和KV压缩等技术提高效率。

【大模型基础设施工程】16：长上下文工程

土法炼钢兴趣小组的博客 ·

学习大型语言模型中变压器架构的演变

freeCodeCamp.org ·

位置编码中的插值及YaRN在更大上下文窗口中的应用

MachineLearningMastery.com ·

变换器模型中的位置编码

MachineLearningMastery.com ·

本研究提出了一种二维语义感知位置编码（$ ext{SaPE}^2$），有效解决了现有位置编码无法捕捉图像补丁间语义关系的问题，从而显著提升了模型的泛化能力和视觉任务性能。

Two-Dimensional Semantic-Aware Positional Encoding for Vision Transformers

BriefGPT - AI 论文速递 ·

解读人工智能术语：开发者理解基础知识指南

DEV Community ·

本研究探讨了音乐生成中高效位置编码（PE）的应用挑战，并比较了不同的PE方法。提出的新方法RoPEPool通过提取时间序列的因果关系并结合结构先验，在旋律和声化任务中表现出优越性。

所有StrIPEs：结构信息驱动的位置编码在高效音乐生成中的研究

BriefGPT - AI 论文速递 ·

Qwen2.5-Omni：迈向通用多模态AI的里程碑——解读首个支持实时多模态输入与输出的统一模型

我爱自然语言处理 ·

本研究提出了一种新型位置编码方法STRING，克服了大型语言模型中旋转位置编码的局限性。STRING在保持低计算开销的同时，实现了精确的平移不变性，并在视觉变换器中应用，显著提升了开放词汇物体检测和机器人控制的效果。

Learning RoPEs: Enhancing 2D and 3D Positional Encoding with STRING

BriefGPT - AI 论文速递 ·

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

机器之心 ·

本文研究了奇偶性语言的识别问题，提出了一种新型三层变压器，其参数矩阵和位置编码与输入长度无关，显著改进了Chiang和Cholak的构造，提高了处理效率和简洁性。

完全均匀变压器用于奇偶性识别

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过结合二次长度差异的位置编码（LDPE）在输入嵌入中，解决大语言模型生成结构化输出时的响应长度控制问题。实验结果表明，该方法能够在不影响响应质量的前提下，实现精确的长度控制。

Precise Length Control in Large Language Models

BriefGPT - AI 论文速递 ·

HuggingFace工程师亲授：如何在Transformer中实现最好的位置编码

机器之心 ·

本研究探讨了BFloat16格式与Rotary Positional Embedding（RoPE）结合时在长上下文训练中的数值问题。通过开发AnchorAttention方法，解决了位置编码偏差，提升了长上下文处理能力，训练时间缩短超过50%，同时保持了大型语言模型的任务能力。

When Precision Meets Position: BFloat16 Breaks RoPE in Long-Context Training

BriefGPT - AI 论文速递 ·

本研究探讨了图神经网络(GNNs)和图变压器(GTs)中位置编码(PEs)的孤立性问题，建立了统一框架来评估PEs的应用，并引入了稀疏化GRIT注意机制，发现新GNN架构与PEs的结合能够超越现有方法。

图神经网络和图变压器的位置信息编码基准测试

BriefGPT - AI 论文速递 ·

本研究分析隐式神经表示（INR）的技术缺口，建立分类体系，比较不同方法的优缺点，并为未来研究提供方向，特别关注激活函数、位置编码和高维数据的可扩展性。

隐式神经表示的发展现状：技术与性能调查

BriefGPT - AI 论文速递 ·

本研究质疑传统位置编码在大语言模型中的长期衰减假设，提出高频旋转位置编码（HoPE），以优化位置和语义表示，增强模型的上下文意识和外推能力。

HoPE: A Novel High-Frequency Positional Encoding with No Long-Term Decay to Enhance Context Awareness and Extrapolation Capability

BriefGPT - AI 论文速递 ·

我们介绍了一系列支持高达32,768个令牌的长上下文LLMs。通过持续预训练，这些模型在长文本数据集上表现优异，尤其在长上下文任务中显著超越Llama 2。70B变体在长任务中超过gpt-3.5-turbo-16k。我们分析了位置编码的局限性及预训练设计选择的影响，验证了长上下文持续预训练的有效性。

【大模型基础设施工程】16：长上下文工程

学习大型语言模型中变压器架构的演变

位置编码中的插值及YaRN在更大上下文窗口中的应用

变换器模型中的位置编码

Two-Dimensional Semantic-Aware Positional Encoding for Vision Transformers

解读人工智能术语：开发者理解基础知识指南

所有StrIPEs：结构信息驱动的位置编码在高效音乐生成中的研究

Qwen2.5-Omni：迈向通用多模态AI的里程碑——解读首个支持实时多模态输入与输出的统一模型

Learning RoPEs: Enhancing 2D and 3D Positional Encoding with STRING

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

完全均匀变压器用于奇偶性识别

Precise Length Control in Large Language Models

HuggingFace工程师亲授：如何在Transformer中实现最好的位置编码

When Precision Meets Position: BFloat16 Breaks RoPE in Long-Context Training

图神经网络和图变压器的位置信息编码基准测试

隐式神经表示的发展现状：技术与性能调查

HoPE: A Novel High-Frequency Positional Encoding with No Long-Term Decay to Enhance Context Awareness and Extrapolation Capability

LOGO - 通过高效偏好优化实现长上下文对齐

通过同源模型引导和上下文感知测量选择具有影响力的样本以实现长期上下文对齐

Theoretical Analysis of Hierarchical Language Recognition and Generation by Transformers without Positional Encoding