轻量高性能的 LLM 推理框架,试试 Mini-SGLang
📝
内容提要
项目提供本地部署与在线服务能力,支持通过 OpenAI 兼容接口对外提供推理服务,并包含交互式终端、在线服务与多种示例以便快速上手。• 高性能:通过重用前缀缓存(Radix Cache)、分块预填(Chunked Prefill)、重叠调度(Overlap Scheduling)与张量并行等技术优化吞吐与延迟。• 多场景部署:支持本地 GPU(依赖...
🏷️
标签
➡️