本研究提出了XY-Serve系统,针对生产级大语言模型服务系统中的动态性问题,通过混合预填充/解码/验证调度机制,显著提高了AI加速器上的效率,端到端吞吐量提升高达89%。
完成下面两步后,将自动完成登录并继续当前操作。