MoE$^2$: Optimizing Collaborative Inference for Edge Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了MoE$^2$框架,旨在优化边缘大型语言模型的协同推理,解决推理性能挑战。该方法在能量和延迟限制下实现专家选择的最佳权衡,表现优于现有基线。
🎯
关键要点
- 本研究提出了MoE$^2$框架,旨在优化边缘大型语言模型的协同推理。
- MoE$^2$框架解决了边缘大型语言模型在推理性能方面的挑战。
- 该方法在能量和延迟限制下实现专家选择的最佳权衡。
- 研究表明,MoE$^2$在不同延迟和能量预算之间表现优于现有基线。
➡️