小红花·文摘

本文探讨了网络二值化技术在大型语言模型（LLMs）压缩中的应用，提出了部分二值化 LLMs（PB-LLM）和双二值化方法（DB-LLM），旨在提高计算效率并保持语言推理能力。研究表明，采用新型弹性二元激活函数和混合方法能够显著提升模型性能，同时降低计算成本。