该研究提出了一种基于大语言模型的调度机制,旨在提高时空序列预测中的神经架构搜索效率。通过多层次增强,该方法有效平衡了探索与优化阶段,显著提升了架构搜索效果。
本研究提出了XY-Serve系统,针对生产级大语言模型服务系统中的动态性问题,通过混合预填充/解码/验证调度机制,显著提高了AI加速器上的效率,端到端吞吐量提升高达89%。
本研究提出了ExpertFlow系统,旨在解决稀疏混合专家模型在推理中的高内存需求和低效缓存利用问题。该系统通过灵活路由和高效调度机制,显著提高推理效率,实现93.72%的GPU内存节省和2到10倍的推理速度提升。
完成下面两步后,将自动完成登录并继续当前操作。