小红花·文摘

本研究提出了ExpertFlow系统，旨在解决稀疏混合专家模型在推理中的高内存需求和低效缓存利用问题。该系统通过灵活路由和高效调度机制，显著提高推理效率，实现93.72%的GPU内存节省和2到10倍的推理速度提升。