小红花·文摘

本文探讨了长上下文模型的工程挑战与解决方案，包括位置编码、注意力计算复杂度、训练策略和推理优化。随着上下文长度增加，模型面临计算复杂度和显存限制。采用RoPE、YaRN等技术扩展位置编码，并结合线性注意力和稀疏注意力优化计算效率。在训练方面，采用短预训练与长继续预训练相结合的策略，推理时利用前缀缓存和KV压缩等技术提高效率。

【大模型基础设施工程】16：长上下文工程

土法炼钢兴趣小组的博客 ·

本研究提出了一种新算法，解决RoPE机制在注意力计算中的复杂性，结合多项式方法与快速傅里叶变换，实现子平方时间性能，提升Transformer架构效率。

几乎线性时间内快速计算RoPE注意力的梯度

BriefGPT - AI 论文速递 ·

本研究提出了HashAttention，一种提高长上下文注意力计算效率的方法。HashAttention通过将关键token识别视为推荐问题，实现了$32 imes$的稀疏性，显著提升了模型推理速度，具有重要的实际应用潜力。

HashAttention: Semantic Sparsity for Faster Inference

BriefGPT - AI 论文速递 ·

本研究提出了MagicPIG系统，利用局部敏感哈希（LSH）解决大语言模型中的KV缓存瓶颈问题。该系统在多项任务中显著降低了注意力计算工作量，解码吞吐量提高了1.9至3.9倍，同时保持高准确度。

MagicPIG: LSH Sampling for Efficient Generation of Large Language Models

BriefGPT - AI 论文速递 ·

该文章介绍了一种名为LA-ViT的新型视觉Transformer架构，通过引入少注意力层和注意力残差模块来减少注意力计算的复杂性和饱和问题。实验证明，LA-ViT在各种视觉任务中表现出色，并具有较低的计算复杂度。

LaViT：这也行，微软提出直接用上一层的注意力权重生成当前层的注意力权重 | CVPR 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本文提出了一种与 Transformer 自注意力机制兼容的新函数，优化了注意力计算，减少了参数和训练步骤。实验结果表明，该方法在多个任务中表现优异，特别是在处理长序列时提高了效率和准确性。

椭圆形注意力

BriefGPT - AI 论文速递 ·

本文讨论了在大语言模型推理中优化KV缓存的方法，以降低注意力计算的成本。通过缓存键和值张量，KV缓存减少了重新计算过去标记的需求，使注意力计算能够随着总序列长度线性扩展。文章介绍了KV缓存的实现和优化策略，并讨论了内存消耗和挑战。最后，提出了减少KV缓存大小的方法，例如减少注意力头的数量和对KV缓存进行量化。

LLM推理入门指南②：深入解析KV缓存

OneFlow深度学习框架 ·