《2024 中国开源开发者报告》分析了大模型基础设施的未来趋势,指出推理算力需求上升对大模型应用的影响。报告提出通过存换算和全系统异构协同推理来平衡效果、效率与成本,以促进大模型的广泛应用。
本研究提出了协同推理框架MoE$^2$,旨在优化边缘大型语言模型的专家选择问题。研究结果表明,该方法在能量和延迟限制下优于现有基线。
完成下面两步后,将自动完成登录并继续当前操作。