Spectra: 三元、量化和 FP16 语言模型的综合研究
原文中文,约300字,阅读约需1分钟。发表于: 。通过对 54 个规模从 99M 到 3.9B 参数的语言模型进行培训和公开发布,我们提出了 Spectra LLM 套件,其中包括浮点型语言模型、后期训练量化模型和三值语言模型等,并发现三值语言模型在一些知识基准测试上可以与大约一半规模的浮点型语言模型相匹敌,但在一些其他测试中表现稍逊。此外,我们还发布了 500 多个 Spectra 套件的中间检查点,以提升对低位宽模型的理解。
通过训练和发布54个规模从99M到3.9B的语言模型,提出了Spectra LLM套件,包括浮点型、量化和三值语言模型。发现三值语言模型在一些测试中与一半规模的浮点型语言模型相当,但在其他测试中稍逊。发布了500多个Spectra套件的中间检查点,提升对低位宽模型的理解。