小红花·文摘

vLLM 是一款加速大语言模型推理的框架，解决了内存管理瓶颈，实现了几乎零浪费的 KV 缓存。该框架支持 CPU 卸载和 LMCache，并提供示例代码和配置说明，方便用户进行实验和开发。

【vLLM 学习】Cpu Offload Lmcache

HyperAI超神经 ·

Offload 是一款 JavaScript SDK，可以在用户浏览器本地运行 AI，保护数据隐私，降低成本，提高扩展性。它根据设备资源选择模型，资源不足时回退到指定 API。用户数据无需传输至第三方，适合处理敏感数据的行业，如医疗和法律。支持文本生成和 JSON 数据，强调本地 AI 重要性，避免数据泄露。

Offload - 一款统一的 JavaScript SDK，实现浏览器内的 AI

DEV Community ·

Offload项目将处理过程转移到用户设备上，提高数据隐私性并降低推理成本。通过在用户设备上直接运行模型，解决了成本和用户数据隐私的问题。用户可以在Offload网站上了解更多信息。

将AI推理卸载到用户设备

DEV Community ·