Redis Blog ·

预填充与解码：大型语言模型推理阶段解析

💡 原文英文，约1600词，阅读约需6分钟。

📝

内容提要

本文讨论了大型语言模型（LLM）请求的两个阶段：预填充和解码。预填充阶段处理整个提示，受限于计算能力；解码阶段逐个生成令牌，受限于内存带宽。优化策略需根据这两个阶段的特性进行调整，以提高响应速度。使用Redis的语义缓存可以在缓存命中时绕过推理过程，消除预填充和解码的成本。

🎯

关键要点

大型语言模型（LLM）请求分为两个阶段：预填充和解码。
预填充阶段处理整个提示，受限于计算能力，而解码阶段逐个生成令牌，受限于内存带宽。
预填充是计算密集型的，随着提示长度增加，计算工作量呈指数增长。
解码是内存带宽密集型的，每个令牌生成依赖于之前的令牌，导致数据移动时间较长。
优化策略需根据预填充和解码的特性进行调整，以提高响应速度。
使用Redis的语义缓存可以在缓存命中时绕过推理过程，消除预填充和解码的成本。
有效的注意力内核和语义缓存是优化预填充的两种策略。
解码优化包括使用快速草稿模型进行推测解码和量化技术，以减少每一步的数据移动。

❓

延伸问答

大型语言模型的请求分为哪两个阶段？

大型语言模型的请求分为预填充阶段和解码阶段。

预填充阶段的主要特征是什么？

预填充阶段处理整个提示，受限于计算能力，计算工作量随着提示长度增加而呈指数增长。

解码阶段是如何工作的？

解码阶段逐个生成令牌，每个令牌依赖于之前的令牌，受限于内存带宽。

如何优化大型语言模型的响应速度？

优化策略需根据预填充和解码的特性进行调整，例如使用Redis的语义缓存可以绕过推理过程。

什么是语义缓存，它如何提高性能？

语义缓存是缓存完整的LLM响应，当新查询与之前的查询语义相似时，可以直接从缓存中获取，避免推理过程。

在解码阶段，如何减少每一步的数据移动？

可以通过使用快速草稿模型进行推测解码和量化技术来减少每一步的数据移动。

🏷️

继续阅读

现实世界中的自托管大型语言模型：限制、解决方案与深刻教训
自托管大型语言模型（LLM）面临硬件限制、延迟和模型行为不一致等挑战。运行7B参数模型至少需要16GB显存，量化虽然能节省资源，但会影响精度。自托管模型通...
使用AI代理读取CPAN测试者报告
CPAN Testers通过志愿者对每个CPAN分发版进行测试，产生了超过1.5亿份测试报告。为简化数据处理，开发了一个接口，利用大型语言模型分析这些报告...
NAD代谢调控血管稳定机制：内皮细胞静止状态与氧化应激关联解析
研究表明，NAD代谢在血管稳定中至关重要。内皮细胞在增殖后需要恢复静止状态，NAD能够调控氧化应激，防止细胞连接失效。缺乏NAD会导致过氧化氢失控，从而使...
XtraBackup增量准备阶段速度提升至2倍-3倍！
Percona发布了MySQL 1.1.0版本，新增了点时间恢复（PITR）、增量备份和压缩功能，旨在提升数据库的备份效率和数据恢复能力。
阿尔茨海默新机制揭秘：NAD+崩溃如何引爆脑炎症与血管老化全流程解析
研究发现，NAD+水平下降会导致线粒体功能受损、免疫反应激活、脑内炎症和血管衰老，最终影响认知能力。补充NAD+前体NR可以逆转这一过程，改善小鼠的认知功...
面向电商直播场景的全模态大模型推理加速方案
本文介绍了电商直播场景下的全模态理解大模型TLiveOmni在vLLM框架下的推理部署与量化优化。通过自定义插件和修复多模态Token排布，解决了vLLM...