小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
理解 KV Cache:Attention、P/D 分离与 vLLM 的页式显存管理

本文探讨了大语言模型中KV Cache的产生与管理及其在推理过程中的重要性。KV Cache通过缓存历史K/V向量,优化生成过程并减少计算复杂度。Prefill阶段处理所有输入,而Decode阶段逐步生成输出,二者需分离以提升性能。vLLM采用页式内存管理,解决内存碎片问题,提升存储效率,确保高效的推理系统。

理解 KV Cache:Attention、P/D 分离与 vLLM 的页式显存管理

Steins;Lab
Steins;Lab · 2026-05-06T16:28:41Z

Part 5 of the “User Psychology Series.” Over the last four chapters of the “User Psychology Series,” we have explored how users think, feel, decide, hesitate, trust, and drop off. Each article...

Attention Engineering: Why Users Ignore Even the Most Important Elements

UX Magazine
UX Magazine · 2026-04-23T03:31:26Z

本文探讨了自注意力机制的核心概念及其与传统模型的比较。自注意力允许序列内的每个token相互沟通,解决了RNN的长依赖问题。由于自注意力对位置无知,需通过位置编码注入位置信息。多头注意力使不同头学习不同关系。尽管自注意力在长序列处理上表现优异,但其计算复杂度为O(N²),引发了对优化的研究。

【Transformer 与注意力机制】14|Self-Attention:让序列自己看自己

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

本文回顾了2014年Bahdanau等人提出的注意力机制在神经机器翻译中的应用。该机制通过动态计算上下文向量,克服了固定长度向量的局限性,显著提升了长句翻译的质量。Bahdanau的研究为现代自然语言处理中的注意力机制奠定了基础,尽管后来被Transformer取代,但其核心思想仍然具有深远影响。

【Transformer 与注意力机制】12|Bahdanau Attention:注意力的早期形态

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

多头注意力机制的核心在于独立计算不同的注意力分布,而非简单平均。理解位置限制和计算复杂度是后续研究的重点。

【Transformer 与注意力机制】16|Multi-Head Attention:为什么要分多个头

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

《Attention Is All You Need》论文于2017年发表,提出了Transformer架构,摆脱了RNN和CNN,专注于并行化训练。其核心贡献包括多头自注意力和位置编码,显著提升了机器翻译的训练速度。尽管初期反响平平,但后来成为大语言模型的基础,影响深远。作者团队背景各异,后续大多离开Google,成为AI领域的重要人物。

【Transformer 与注意力机制】19|《Attention Is All You Need》论文背景

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

这篇文章介绍我们的一个最新作品Attention Residuals(AttnRes),顾名思义,这是用Attention的思路去改进Residuals。不少读者应该都听说过Pre Norm/P...

Attention Residuals 回忆录

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2026-03-19T02:02:00Z

The quality of consumer attention that gaming captures is exceptional. Growth in the next era will depend on publishers, platforms, and partners rethinking how to maximize the value of that attention.

Gaming’s next growth era: Unlocking the value of attention

McKinsey Insights & Publications
McKinsey Insights & Publications · 2026-03-05T00:00:00Z
LUCID Attention:给长上下文模型戴上降噪耳机

LUCID Attention 提出了一种新型注意力机制,通过去相关化 key 向量,解决了长上下文模型中的噪声和学习困境,提高了信息检索精度,计算开销几乎不变,适用于长上下文任务。

LUCID Attention:给长上下文模型戴上降噪耳机

Micropaper
Micropaper · 2026-03-02T13:30:00Z

阿里巴巴Qwen团队的论文《Gated Attention》提出在Transformer注意力机制中引入门控,以解决训练不稳定、注意力聚焦和长上下文表现不佳的问题。该方法通过选择性过滤信息,提升了模型性能和训练稳定性,已在Qwen3-Next模型中应用,效果显著。

Gated Attention Neurips Best Paper

Micropaper
Micropaper · 2026-02-28T00:00:00Z

谷歌新论文《嵌套学习:深度学习架构的幻象》指出,大型语言模型存在“数字失忆症”,无法有效记忆新知识。研究强调优化器不仅是训练工具,更是记忆系统,提出“嵌套学习”新范式,强调模型深度与更新频率的平衡。新架构HOPE模仿人脑记忆机制,展现了解决持续学习问题的潜力,可能改变AI设计逻辑。

为什么这篇谷歌论文被称为「Attention is all you need」V2

量子位
量子位 · 2025-12-21T11:09:33Z
AI 论文周报丨Attention机制/英伟达VLA模型/TTS模型/图神经网络……一文了解 AI 最新进展

Nvidia推出的Alpamayo-R1(AR1)是一种具备结构化推理能力的视觉-动作模型,提升了复杂驾驶场景下的决策能力,为四级自动驾驶提供了可行路径。

AI 论文周报丨Attention机制/英伟达VLA模型/TTS模型/图神经网络……一文了解 AI 最新进展

HyperAI超神经
HyperAI超神经 · 2025-12-12T07:23:57Z

UK consumers watch hours of content daily. But in an increasingly fragmented media market, companies that truly understand the value of attention are most likely to get ahead.

Mind the attention gap: Winning the battle for UK consumer attention

McKinsey Insights & Publications
McKinsey Insights & Publications · 2025-12-12T00:00:00Z
一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA):让q跟最相关的k/v做注意力计算,以降低MLA的计算量

DeepSeek-V3.2引入了稀疏注意力机制(DSA),优化了长文本处理的效率。通过闪电索引器和细粒度选择机制,DSA减少了计算量并提升了模型性能。该版本在持续预训练和后训练中结合专家蒸馏和强化学习,显著提高了推理效率和稳定性。

一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA):让q跟最相关的k/v做注意力计算,以降低MLA的计算量

结构之法 算法之道
结构之法 算法之道 · 2025-12-05T07:49:14Z

本文研究了$n$个独立标准正态分布随机数的最大值$z_{ ext{max}}$的数学期望$ ext{E}[z_{ ext{max}}]$,结果显示随着$n$的增加,$ ext{E}[z_{ ext{max}}]$近似为$ ext{sqrt{2log n}}$,并提供了三种证明方法。同时,文章分析了低精度Attention中重复最大值的概率。

n个正态随机数的最大值的渐近估计

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-11-06T13:24:00Z

本文分析了论文《Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention》中低精度Attention计算的偏差问题,指出低精度运算导致的舍入误差可能引发MaxLogit爆炸等训练异常。作者提出通过调整计算公式消除偏差,并探讨注意力集中对训练崩溃的影响。

低精度Attention可能存在有偏的舍入误差

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-10-27T02:11:00Z
一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略:将粗粒度的token压缩与细粒度的token选择相结合

DeepSeek R1引起关注,研究者提出新注意力机制NSA,旨在提高长上下文处理效率。NSA结合硬件优化与可训练设计,克服现有稀疏注意力方法的局限性,提升模型性能与训练效率。

一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略:将粗粒度的token压缩与细粒度的token选择相结合

结构之法 算法之道
结构之法 算法之道 · 2025-10-03T12:43:44Z

Flash Attention的作者Tri Dao在播客中预测,未来三年内英伟达将失去GPU市场主导地位,AI硬件生态将变得多元化。他指出推理成本已下降100倍,未来有望再降10倍,技术进步将推动AI硬件发展。

Flash Attention作者最新播客:英伟达GPU统治三年内将终结

量子位
量子位 · 2025-09-29T06:03:47Z
Triton Flash Attention 内核详解:前向传播

本文探讨了Triton实现的FlashAttention机制,强调其在GPU内存管理上的创新。FlashAttention通过分块处理输入,减少内存I/O瓶颈,提升计算效率。文章介绍了核心设计,包括在线softmax方法和相对位置偏差的引入,展示了在高性能GPU内核中实现高效注意力机制的方式。

Triton Flash Attention 内核详解:前向传播

Nathan Chen
Nathan Chen · 2025-09-24T00:00:00Z

研究提出了Transition Model(TiM),旨在解决生成模型中的速度与质量矛盾。TiM通过建模任意时间点的状态转移,支持灵活步长采样,实现快速生成与高保真度的平衡。实验结果表明,TiM在多分辨率设置下优于现有模型,具备更好的可扩展性和稳定性。

兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention

量子位
量子位 · 2025-09-14T05:45:56Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码