FBI-LLM:通过自回归蒸馏从头开始扩展全二进制 LLMs

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究提出了一种全二值化大型语言模型(FBI-LLM),通过自回归蒸馏损失训练,达到全精度对应模型的性能。该研究鼓励新的计算框架,并可能促进专门针对完全1位LLM的硬件的未来设计。提供了所有模型、代码和训练数据集的完全访问和透明性,以支持进一步的研究。

🎯

关键要点

  • 本研究提出了一种全二值化大型语言模型(FBI-LLM)。
  • 首次展示如何从头开始训练大规模的二值化语言模型。
  • FBI-LLM在变压器型语言模型中达到全精度对应模型的性能。
  • 采用自回归蒸馏(AD)损失,保持模型维度和培训数据量与常规 LLM 相同。
  • 在困惑度和特定任务效果方面取得了有竞争力的结果。
  • 从头开始训练二进制化 LLM 不需要预训练权重。
  • 研究鼓励新的计算框架,可能促进专门针对完全 1 位 LLM 的硬件设计。
  • 提供所有模型、代码和训练数据集的完全访问和透明性,以支持进一步研究。
➡️

继续阅读