本文研究了大语言模型在资源受限设备上的推断挑战,提出通过ReLU激活函数和稀疏化方法提升性能。采用新型dReLU函数和Mixture-of-Experts模型,实现推理速度提升2-5倍,同时保持高准确率。
完成下面两步后,将自动完成登录并继续当前操作。