vLLM Blog ·

vLLM新KV卸载连接器内部揭秘：智能内存传输以最大化推理吞吐量

💡 原文英文，约2800词，阅读约需10分钟。

📝

内容提要

vLLM 0.11.0引入KV缓存卸载功能，将缓存转移至CPU内存（DRAM），提升推理吞吐量。通过缓存KV值，降低计算需求，改善请求延迟和每节点吞吐量。新API支持异步加载和存储KV数据，优化GPU与CPU间的数据传输，显著提升性能。

🎯

🏷️

【vLLM 学习】视觉语言
本文介绍了如何使用vLLM进行离线推理，特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置，以确保在不同GPU上有效运行。
苹果iPad Air M4评测：速度略有提升
M4 Air在CPU性能上比M3 Air快20-25%，GPU性能快10-15%。尽管性能提升明显，但实际使用中差异不大，仅在Spotlight搜索中M4...
CLion 2026.1 EAP中的DAP调试器的TCP连接、数值格式的不同以及更多内容
Natvis性能显著提升，使用MSVC工具链的LLDB自定义调试器，调试速度提高超过80倍，内存使用减少2.5倍，特别适合大型项目开发者，CLion和Rider用户受益。
基于华为开发者空间鸿蒙云手机+MaaS的鸿蒙原生智能应用开发 - 翻译助手APP
本文介绍了基于华为鸿蒙云手机和MaaS平台的翻译助手APP开发案例。开发者需使用DevEco Studio和DevEco Testing工具，远程连接云手...
LTN与MediaKind合作，提供可靠的IP传输和边缘处理解决方案
LTN与MediaKind达成战略合作，整合MK.IO Beam设备与LTN网络，实现高效视频传输，推动IP分发部署，简化边缘处理，满足内容制作商对灵活性...
美格智能多平台成功接入Clawdbot
开源智能体Clawdbot（现名OpenClaw）迅速崛起，连接本地系统与多终端工具，推动“个人AI管家”的实现。美格智能的AIMO PRO等产品成功接入...