第一激活至关重要:大型语言模型中无训练动态激活的方法
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
介绍了dReLU激活函数,用于改善大型语言模型的激活稀疏性和性能。通过稀疏化神经元,实现了2-5倍的解码加速。手机上每秒可实现11个标记的推理速度。
🎯
关键要点
- dReLU激活函数用于改善大型语言模型的激活稀疏性和性能。
- 激活稀疏性由激活函数决定,常用的SwiGLU和GeGLU函数显示出有限的稀疏性。
- 仅用ReLU替换这些函数无法实现足够的稀疏性。
- 不充分的训练数据会增加性能下降的风险。
- 提出的新颖dReLU函数旨在改善LLM的激活稀疏性。
- 高质量的训练数据混合比例有助于促进有效稀疏化。
- 利用Mixture-of-Experts模型中的稀疏激活模式提高效率。
- 应用神经元稀疏化方法于Mistral和Mixtral模型,实现了2-5倍的解码加速。
- TurboSparse-Mixtral-47B模型在手机上每秒实现11个标记的推理速度。
- 模型可在https://huggingface.co/PowerInfer获得。
➡️