Redis Blog ·

流式LLM响应：让你的AI应用感觉更快

💡 原文英文，约1700词，阅读约需7分钟。

📝

内容提要

本文讨论了流式响应在大型语言模型（LLM）中的应用，强调其提升用户体验的作用。流式技术通过实时发送生成的每个令牌，减少用户等待时间，使交互更自然。结合缓存技术，流式响应可以进一步提高应用的响应速度，Redis在AI应用中提供高效的缓存和数据处理能力，帮助开发者优化性能。

🎯

关键要点

流式响应通过实时发送生成的每个令牌，减少用户等待时间，使交互更自然。
流式技术使用户在等待完整响应时仍能阅读，提升了用户体验。
流式响应的关键指标是首次令牌时间（TTFT），它影响用户的等待感受。
流式响应与缓存技术结合，可以进一步提高应用的响应速度。
Redis在AI应用中提供高效的缓存和数据处理能力，帮助开发者优化性能。
流式响应适合实时交互的应用，如聊天和代码生成工具，而批处理任务则更适合传统API。
在实现流式响应时，需要注意网络代理和压缩中间件可能导致的缓冲问题。
语义缓存可以提高缓存命中率，Redis LangCache提供了管理的语义缓存能力，显著提升了性能。

❓

延伸问答

流式响应如何提升用户体验？

流式响应通过实时发送生成的每个令牌，减少用户等待时间，使交互更自然，用户可以在等待完整响应时继续阅读。

什么是首次令牌时间（TTFT），它的重要性是什么？

首次令牌时间（TTFT）是指从提交请求到看到第一个输出的时间，它直接影响用户的等待感受，越短的TTFT让用户感觉等待时间越少。

流式响应与缓存技术如何结合以提高应用性能？

流式响应与缓存技术结合时，应用可以在缓存未命中时实时流式发送令牌，并在流式完成后异步存储完整响应，从而提高响应速度。

流式响应适合哪些类型的应用？

流式响应适合实时交互的应用，如聊天和代码生成工具，而批处理任务则更适合传统API。

在实现流式响应时需要注意哪些问题？

需要注意网络代理和压缩中间件可能导致的缓冲问题，这些可能会使流式响应退化为批处理行为。

Redis在流式响应中的作用是什么？

Redis在流式响应中提供高效的缓存和数据处理能力，支持语义缓存，显著提升性能，帮助开发者优化AI应用。

🏷️

继续阅读

优步在其应用中新增酒店功能，迈出重大旅行步伐
优步与Expedia合作，将酒店预订功能添加到其应用中，用户可直接在应用内预订全球超过70万家酒店。优步还计划推出Vrbo的房屋租赁服务，并增加个性化主页...
使用AI代理读取CPAN测试者报告
CPAN Testers通过志愿者对每个CPAN分发版进行测试，产生了超过1.5亿份测试报告。为简化数据处理，开发了一个接口，利用大型语言模型分析这些报告...
现实世界中的自托管大型语言模型：限制、解决方案与深刻教训
自托管大型语言模型（LLM）面临硬件限制、延迟和模型行为不一致等挑战。运行7B参数模型至少需要16GB显存，量化虽然能节省资源，但会影响精度。自托管模型通...
Zed AI 白嫖免费模型，搭配 DeepSeek v4，玩转 Agent 编程技巧 - 曦远Code
Zed 编辑器功能灵活，支持多种 AI 模型，用户可通过 ACP 协议配置 agent。虽然 AI 功能有限，但适合日常开发和文档生成，提供免费模型使用，...
移动端 Agent 的井喷或许近在眼前：以 ColorOS 抛砖引玉
本文探讨了移动端AI助手的现状与未来，重点分析了ColorOS中的小布助手的功能及其优缺点。作者指出，尽管AI助手功能多样，但缺乏统一性。未来，随着技术进...
让 LivU 视频聊天在 2026 年广受欢迎的主要功能
到2026年，用户对社交平台的要求提高，Livu视频聊天因其易用性和实时互动而受欢迎。视频聊天提供自然交流方式，减轻传统社交网络压力，帮助用户更快结识新朋...