AI推理:如何实现吞吐翻倍、时延降90%与GPU资源节省26%?

📝

内容提要

京东云云原生AI推理框架通过多维度调度与系统级优化,显著提升了推理效率与资源利用率。短文与长文吞吐均有大幅增长,首 token 延迟明显降低,并结合自动弹性扩缩容与 KV Cache 感知调度,进一步提升集群吞吐与缓存命中率,同时节省可观的 GPU...

🏷️

标签

➡️

继续阅读