小红花·文摘

本文研究了大语言模型在资源受限设备上的推断挑战，提出通过ReLU激活函数和稀疏化方法提升性能。采用新型dReLU函数和Mixture-of-Experts模型，实现推理速度提升2-5倍，同时保持高准确率。