Redis Blog ·

如何提升大型语言模型用户体验：速度、延迟与缓存

💡 原文英文，约2100词，阅读约需8分钟。

📝

内容提要

提升大型语言模型（LLM）应用速度至关重要，用户在1秒内保持思维流畅，超过10秒则易失去注意力。文章分析了应用缓慢的原因、诊断延迟的方法及改善用户体验的策略，包括减少真实和感知延迟。优化速度不仅提升用户满意度，还能促进业务成果。

🎯

关键要点

提升大型语言模型（LLM）应用速度至关重要，用户在1秒内保持思维流畅，超过10秒则易失去注意力。
应用缓慢的原因包括真实延迟和感知延迟，优化速度可以提升用户满意度和业务成果。
用户在使用LLM应用时，等待时间的感知受到多个因素的影响，包括输入确认、上下文获取和模型响应等。
缺乏反馈会加剧用户的不安，用户在等待时不知道发生了什么，导致短暂的延迟也显得更为漫长。
输出结果的质量直接影响用户体验，低质量的回答会导致用户需要多次提问或放弃使用。
LLM应用的速度是用户体验的基础，用户期望响应是对话式的，因此每一步的延迟都会累积。
诊断LLM用户体验和性能瓶颈需要明确时间的分配，识别延迟的具体来源。
优化用户体验的关键指标包括首次令牌时间（TTFT）、每秒令牌数（TPS）和成功所需的回合数。
许多延迟是自我造成的，常见问题包括重复发送大量聊天记录和不必要的检索。
减少真实延迟的方法包括提前流式传输、缩短提示长度和加速检索过程。
通过更好的交互设计来减少感知延迟，例如立即确认用户输入和提供部分输出。
用户体验的改善与业务成果密切相关，降低TTFT可以提高用户参与度和减少支持请求。
使用Redis等实时数据平台可以优化LLM应用的低延迟操作，提升整体性能。

❓

延伸问答

如何提升大型语言模型应用的速度？

可以通过提前流式传输、缩短提示长度和加速检索过程来减少真实延迟。

用户在使用大型语言模型时，等待时间的感知受哪些因素影响？

等待时间的感知受到输入确认、上下文获取和模型响应等多个因素的影响。

如何诊断大型语言模型应用的性能瓶颈？

可以通过明确时间分配，跟踪每个阶段的延迟来诊断性能瓶颈。

大型语言模型应用的速度对用户体验有什么影响？

应用速度直接影响用户体验，较慢的响应会导致用户流失和满意度下降。

如何减少用户在使用大型语言模型时的感知延迟？

可以通过立即确认用户输入和提供部分输出来减少感知延迟。

使用Redis等实时数据平台对大型语言模型应用有什么好处？

使用Redis可以优化低延迟操作，提升整体性能，减少检索延迟。

🏷️

继续阅读

Cloudflare正在向用户推出新版DNS管理界面功能没变但操作界面更清晰
Cloudflare 正在推出新版 DNS 管理界面，界面更加清晰，用户可以查看 DNS 记录的创建和修改时间，并添加备注。虽然功能基本保持不变，但显示选...
OpenClaw v2026.5.22性能飙升4000倍、Windows装机不再噩梦
OpenClaw 2026.5.22版本显著提升性能，模型查询速度从20秒降至5毫秒，安装过程优化，Windows用户体验改善。新增会议记录插件，支持Di...
从复杂编辑器到 Agent 工作台：Office 的 Cursor 时刻
文章探讨了AI代理在Office软件（如PowerPoint）中进行文档编辑的未来。AI将实时修改文档，用户只需描述目标，AI便能自动调整文档结构和内容。...
Google I/O失焦与Gemini困局
在2026年Google I/O大会上，Google在AI领域的表现显得疲态尽显，尤其是Gemini 3.5 Flash的用户体验令人失望。尽管技术实力强...
将 600 亿参数大模型装进手机的瓶颈，终于被中国 AI 公司突破了
国产闭环，框架国产，芯片国产，模型国产，方法论自主#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
联想/惠普/戴尔将每年各捐助10万美元用于赞助Linux厂商固件服务门户
#行业资讯联想 / 惠普 / 戴尔将每年各自捐助 10 万美元用于赞助 Linux 制造商固件服务门户项目的开发和运营。该项目用于 OEM 提交适用于 ...