BEExformer:一种通过二值化和多重提前退出实现快速推理的变压器架构
📝
内容提要
本研究解决了大型语言模型在资源有限设备上部署时面临的效率问题,提出了一种名为BEExformer的二值化提前退出变压器架构。此架构通过创新的量化方法和软路由损失估计显著提高了推理效率,降低了模型规模以及推理计算量,同时在准确性上实现了5.98%的提升,为深度学习模型的实际应用提供了新的解决方案。
➡️