KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
💡
原文中文,约4100字,阅读约需10分钟。
📝
内容提要
KTransformers是趋境科技与清华大学联合研发的高性能异构推理框架,专注于大模型推理。该框架通过CPU与GPU协同优化算力利用,提升推理效率,支持低算力环境下的大模型应用。其论文入选国际顶会SOSP 2025,获得全球认可,并与主流框架SGLang合作,推动开发者创新。
🎯
关键要点
- KTransformers是趋境科技与清华大学联合研发的高性能异构推理框架,专注于大模型推理。
- 该框架通过CPU与GPU协同优化算力利用,提升推理效率,支持低算力环境下的大模型应用。
- KTransformers的论文入选国际顶会SOSP 2025,获得全球认可。
- KTransformers与主流框架SGLang合作,推动大模型推理架构的融合与创新。
- KTransformers引入专家延迟机制,优化MoE模型的推理效率。
- 通过高吞吐计算核和自定义内存布局,KTransformers在CPU上实现了显著的性能提升。
- KTransformers的设计使得CPU与GPU能够动态重叠负载,提高模型吞吐量。
- KTransformers已成为广泛复用的开源推理框架,GitHub Star数突破15.2K。
- 趋境科技在KTransformers的开发中扮演了核心角色,推动了推理基础设施的创新。
- KTransformers希望让大模型推理不再专属于高端算力,推动算力普惠。
➡️