Niyama:打破大型语言模型推理服务的孤岛

📝

内容提要

本研究解决了现有大型语言模型服务框架中资源利用率低和难以满足精细化服务质量(QoS)需求的问题。Niyama提出了一种新颖的基于服务质量驱动的推理服务系统,允许应用程序精确指定延迟要求,并动态调整调度决策。实验结果表明,Niyama在保持服务质量保证的情况下,相较于当前的孤岛部署,提升了32%的服务能力,并在极端负载下显著减少了服务级别目标(SLO)违规。

🏷️

标签

➡️

继续阅读