Seesaw: Achieving High Throughput in Large Language Model Inference through Dynamic Model Resharding
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出Seesaw推理引擎,通过动态模型重分片技术优化大型语言模型的并行推理策略,最高提升吞吐量1.78倍。
🎯
关键要点
- 本研究提出Seesaw推理引擎,解决了大型语言模型推理中并行化策略不足的问题。
- Seesaw引擎通过动态模型重分片技术,灵活调整推理阶段的并行化策略。
- 研究表明,Seesaw在推理吞吐量上相比于最先进的引擎vLLM提升了最高达1.78倍,平均提升1.36倍。
➡️