小红花·文摘 - 小红花技术领袖俱乐部

该研究提出了一种基于大语言模型的调度机制，旨在提高时空序列预测中的神经架构搜索效率。通过多层次增强，该方法有效平衡了探索与优化阶段，显著提升了架构搜索效果。

Guidance for Architecture Search in Spatial-Temporal Sequence Forecasting Based on Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了XY-Serve系统，针对生产级大语言模型服务系统中的动态性问题，通过混合预填充/解码/验证调度机制，显著提高了AI加速器上的效率，端到端吞吐量提升高达89%。

Tackling the Dynamicity in Production Large Language Model Serving Systems via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels

BriefGPT - AI 论文速递 ·

本研究提出了ExpertFlow系统，旨在解决稀疏混合专家模型在推理中的高内存需求和低效缓存利用问题。该系统通过灵活路由和高效调度机制，显著提高推理效率，实现93.72%的GPU内存节省和2到10倍的推理速度提升。

ExpertFlow: Optimizing Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference

BriefGPT - AI 论文速递 ·