小红花·文摘

本研究提出了INFERMAX分析框架，以解决大型语言模型推理系统的可扩展性问题。通过比较调度器，发现主动抢占请求可以降低30%的GPU成本，为高效推理系统提供了经济有效的策略。