MachineLearningMastery.com ·

从提示到预测：理解大型语言模型中的预填充、解码和KV缓存

💡 原文英文，约3500词，阅读约需13分钟。

📝

内容提要

本文介绍了大型语言模型（LLM）推理的两个阶段：预填充和解码。预填充阶段通过并行处理整个提示，计算并存储每个令牌的键（K）和值（V）。解码阶段逐个生成令牌，使用新令牌的查询（Q）与缓存的键和值进行计算，从而提高解码效率，特别是在处理长提示和生成响应时。

🎯

关键要点

大型语言模型推理分为两个阶段：预填充和解码。
在预填充阶段，模型通过并行处理整个提示，计算并存储每个令牌的键（K）和值（V）。
解码阶段逐个生成令牌，使用新令牌的查询（Q）与缓存的键和值进行计算。
KV缓存通过避免重复计算，提高了解码效率，特别是在处理长提示和生成响应时。
在预填充阶段，所有令牌的注意力计算可以并行进行，而解码阶段则需要逐个生成令牌。
KV缓存使得解码过程中的计算复杂度从O(n^2)降低到O(n)，从而提高了效率。

❓

延伸问答

大型语言模型的推理过程分为哪两个阶段？

大型语言模型的推理过程分为预填充和解码两个阶段。

预填充阶段的主要功能是什么？

预填充阶段通过并行处理整个提示，计算并存储每个令牌的键（K）和值（V）。

解码阶段是如何生成令牌的？

解码阶段逐个生成令牌，使用新令牌的查询（Q）与缓存的键和值进行计算。

KV缓存如何提高解码效率？

KV缓存通过避免重复计算，将解码过程中的计算复杂度从O(n^2)降低到O(n)，从而提高了解码效率。

在预填充阶段，注意力计算是如何进行的？

在预填充阶段，所有令牌的注意力计算可以并行进行，构建上下文表示以捕捉序列中的关系。

解码阶段与预填充阶段的主要区别是什么？

解码阶段需要逐个生成令牌，而预填充阶段则可以并行处理所有令牌。

🏷️

继续阅读

五篇清晰解释大型语言模型的有趣论文
本文介绍了五篇关于大型语言模型（LLMs）的重要论文，涵盖其核心概念和技术。首先是“Attention Is All You Need”，提出了Trans...
外壳的铸造 — v5的诞生
文章讨论了v5的诞生过程，描述了旧服务器的迁移与更新。团队通过483次提交逐步改进系统，保持了连续性。对比旧版与新版，揭示了数据结构的变化和命名的困惑，强...
通过玩“战舰”教人工智能代理提出更好的问题
麻省理工学院的研究显示，小型人工智能模型在经典游戏“战舰”中表现优于大型模型，成本仅为其1%。研究指出，通过改进模型的提问能力和使用蒙特卡罗推理策略，可以...
托德·马乔弗因在音乐和技术领域的贡献而获得乔治·皮博迪奖
托德·马乔弗将获得乔治·皮博迪奖，以表彰他在美国音乐和舞蹈领域的杰出贡献。他是麻省理工学院媒体实验室的教授，以其在参与性歌剧、人工智能和创意技术方面的开创性工作而闻名。
异步虚拟文件系统内容写入 – 插件开发者需要知道的事项
在IntelliJ平台的插件开发中，异步虚拟文件系统（VFS）写入时需注意，保存文件后VFS可能先更新，实际磁盘写入可能延迟，导致读取文件时出现旧内容。开...
大卫·惠勒：pg_clickhouse 0.3.1：现在支持更多C语言
pg_clickhouse 0.3.1版本发布，更新了驱动库，替换为新的clickhouse-c库，提升了稳定性和编译速度，减少了二进制文件大小。新库支持...