FBI-LLM:通过自回归蒸馏从头开始扩展全二进制 LLMs
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究提出了一种全二值化大型语言模型(FBI-LLM),通过自回归蒸馏损失训练,达到全精度对应模型的性能。该研究鼓励新的计算框架,并可能促进专门针对完全1位LLM的硬件的未来设计。提供了所有模型、代码和训练数据集的完全访问和透明性,以支持进一步的研究。
🎯
关键要点
- 本研究提出了一种全二值化大型语言模型(FBI-LLM)。
- 首次展示如何从头开始训练大规模的二值化语言模型。
- FBI-LLM在变压器型语言模型中达到全精度对应模型的性能。
- 采用自回归蒸馏(AD)损失,保持模型维度和培训数据量与常规 LLM 相同。
- 在困惑度和特定任务效果方面取得了有竞争力的结果。
- 从头开始训练二进制化 LLM 不需要预训练权重。
- 研究鼓励新的计算框架,可能促进专门针对完全 1 位 LLM 的硬件设计。
- 提供所有模型、代码和训练数据集的完全访问和透明性,以支持进一步研究。
➡️