小红花·文摘

运行大型语言模型（LLM）如GPT的成本高，vLLM通过Paged Attention技术优化内存管理，提升KV缓存效率，支持多请求并行处理，从而提高模型服务性能。

一文通透vLLM与其核心技术PagedAttention：减少KV Cache碎片、提高GPU显存利用率(推理加速利器)

结构之法算法之道 ·

整理笔记时发现这篇之前学习 transformer 的总结, 略加梳理之后发表出来, 希望能帮到你=. = 本文假设你已经有这里提到的数学常识. 先看 transformer, 先理清 encoder 一个层输入/输出, 如下图所示, P.S. 我发现动动手把输入/输出 shape 写出来很是有助于加深理解呀.: encoder 部分最低层的输入很明显是用户输入, 此时 $n_i$...

从 transformer 到 FlashAttention 再到 PagedAttention(1)

学习让我快乐 ·

该文介绍了一种基于键值记忆的注意力机制模型，用于神经机器翻译。该模型通过维护键内存和固定值内存之间的转换和迭代交互，以便在每个解码步骤时，可以关注更合适的源单词来预测下一个目标单词，从而提高翻译的适用性。

大规模语言模型服务的高效内存管理与 PagedAttention

BriefGPT - AI 论文速递 ·