Spectra: 三元、量化和 FP16 语言模型的综合研究
通过训练和发布54个规模从99M到3.9B的语言模型,提出了Spectra LLM套件,包括浮点型、量化和三值语言模型。发现三值语言模型在一些测试中与一半规模的浮点型语言模型相当,但在其他测试中稍逊。发布了500多个Spectra套件的中间检查点,提升对低位宽模型的理解。
原文中文,约300字,阅读约需1分钟。
通过训练和发布54个规模从99M到3.9B的语言模型,提出了Spectra LLM套件,包括浮点型、量化和三值语言模型。发现三值语言模型在一些测试中与一半规模的浮点型语言模型相当,但在其他测试中稍逊。发布了500多个Spectra套件的中间检查点,提升对低位宽模型的理解。