P/D-Serve: 大规模服务解耦的大型语言模型
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了在数万台xPU设备上服务解耦大型语言模型时的性能可靠性问题。提出的P/D-Serve系统通过精细化的P/D组织和动态调整策略,提高了处理效率,并实现了60%、42%和46%的端到端吞吐量、首次返回时间和D2D传输时间的提升,展现出6.7倍的吞吐量增长潜力。
本研究提出了P/D-Serve系统,解决了在大规模语言模型上的性能可靠性问题。通过P/D组织和动态调整策略,提高了处理效率,实现了吞吐量、首次返回时间和D2D传输时间的显著提升,展现出吞吐量增长潜力。