量子位 ·

KTransformers入选计算机系统顶会、与主流框架合作，趋境&清华让「异构」成为推理新范式

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

KTransformers是趋境科技与清华大学联合研发的高性能异构推理框架，专注于大模型推理。该框架通过CPU与GPU协同优化算力利用，提升推理效率，支持低算力环境下的大模型应用。其论文入选国际顶会SOSP 2025，获得全球认可，并与主流框架SGLang合作，推动开发者创新。

🎯

关键要点

KTransformers是趋境科技与清华大学联合研发的高性能异构推理框架，专注于大模型推理。
该框架通过CPU与GPU协同优化算力利用，提升推理效率，支持低算力环境下的大模型应用。
KTransformers的论文入选国际顶会SOSP 2025，获得全球认可。
KTransformers与主流框架SGLang合作，推动大模型推理架构的融合与创新。
KTransformers引入专家延迟机制，优化MoE模型的推理效率。
通过高吞吐计算核和自定义内存布局，KTransformers在CPU上实现了显著的性能提升。
KTransformers的设计使得CPU与GPU能够动态重叠负载，提高模型吞吐量。
KTransformers已成为广泛复用的开源推理框架，GitHub Star数突破15.2K。
趋境科技在KTransformers的开发中扮演了核心角色，推动了推理基础设施的创新。
KTransformers希望让大模型推理不再专属于高端算力，推动算力普惠。

❓

延伸问答

KTransformers是什么？

KTransformers是趋境科技与清华大学联合研发的高性能异构推理框架，专注于大模型推理。

KTransformers如何提升推理效率？

KTransformers通过CPU与GPU的协同优化，动态重叠负载，提升了推理效率，支持低算力环境下的大模型应用。

KTransformers的论文入选了哪个国际会议？

KTransformers的论文入选了国际顶会SOSP 2025，获得全球认可。

KTransformers与SGLang的合作有什么意义？

KTransformers与SGLang的合作推动了全GPU推理与异构推理的融合，提升了大模型推理架构的性能和灵活性。

KTransformers如何解决MoE模型的算力瓶颈？

KTransformers通过引入专家延迟机制和高吞吐计算核，优化了MoE模型的推理效率，减少了资源浪费。

KTransformers在开源社区的表现如何？

KTransformers已成为广泛复用的开源推理框架，GitHub Star数突破15.2K，受到多个主流大模型的推荐。

🏷️

继续阅读

刚刚，姚顺雨腾讯首秀来了！三个月重建混元新模型，实测到底什么水平
腾讯推出了新一代大模型Hy3 Preview，旨在解决复杂问题，具备295B参数，强调性能与成本的平衡。该模型在编程和智能体应用方面表现出色，关注用户需求...
国内首家百亿估值纯推理GPU独角兽诞生！专访曦望联席CEO王湛：谁的推理成本更低谁就是赢家
曦望公司在一年内完成七轮融资，成为国内首家估值超百亿的纯推理GPU独角兽。王湛表示，推理算力需求激增，未来将超越训练算力。新一代推理GPU芯片启望S3旨在...
HTD——基于触觉预测的人形行走-操作框架：融合视觉、本体感知、力反馈、触觉，同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量
本文探讨了人形机器人在“行走-操作”任务中的挑战，提出了一种集成式全身操控系统，结合强化学习、VR遥操作和触觉感知。研究者开发了具身触觉梦境的Transf...
全新一代瑞虎 9上市：当新能源成为话题主流后，奇瑞的燃油旗舰正在寻找新的答案
奇瑞汽车在北京推出全新一代瑞虎9，售价14.69万至16.69万元。新车升级了动力、智能化和安全性，搭载鲲鹏2.0T发动机和8AT变速箱，配备30英寸大屏...
AI四大门派四种范式：混沌、信仰、模糊与力量
本文探讨了四大AI公司（OpenAI、Anthropic、Meta和XAI）的架构和训练理念。OpenAI追求创新，Anthropic强调道德，Meta的...
OpenAI的新隐私过滤器可在您的笔记本电脑上运行，确保个人身份信息（PII）从未上传至云端
OpenAI推出了隐私过滤器，这是一种双向标记分类模型，旨在检测和编辑个人身份信息（PII）。该模型支持长文本处理，具有强大的上下文意识，能够更准确地识别...