本研究提出了Academus方法,解决了大规模BERT类模型在GPU上在线推理效率低下的问题。通过学生并行性技术将深度模型转化为一组等效的浅层并行学生模型,Academus实现了显著降低的延迟和更高的吞吐量,同时保持准确率。
完成下面两步后,将自动完成登录并继续当前操作。