利用学生并行性实现低延迟GPU推理的BERT类模型
💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
本研究提出了Academus方法,解决了大规模BERT类模型在GPU上在线推理效率低下的问题。通过学生并行性技术将深度模型转化为一组等效的浅层并行学生模型,Academus实现了显著降低的延迟和更高的吞吐量,同时保持准确率。
🎯
关键要点
- 本研究提出了Academus方法,解决了大规模BERT类模型在GPU上在线推理效率低下的问题。
- Academus通过学生并行性技术将深度模型转化为一组等效的浅层并行学生模型。
- Academus在不影响准确率的情况下,实现了显著降低的延迟和更高的吞吐量。
- Academus在应对突发工作负载时表现优异。
➡️