本文探讨了网络二值化技术在大型语言模型(LLMs)压缩中的应用,提出了部分二值化 LLMs(PB-LLM)和双二值化方法(DB-LLM),旨在提高计算效率并保持语言推理能力。研究表明,采用新型弹性二元激活函数和混合方法能够显著提升模型性能,同时降低计算成本。
完成下面两步后,将自动完成登录并继续当前操作。