苹果OpenELM:开源小语言模型

原文约900字,阅读约需2分钟。发表于:

OpenELM:具有开源训练和推理框架的高效语言模型系列OpenELM 使用分层缩放策略来有效地分配变压器模型每一层内的参数,从而提高准确性。我们使用CoreNet库预训练 OpenELM 模型。我们发布了具有 270M、450M、1.1B 和 3B 参数的预训练和指令调整模型。我们的预训练数据集包含RefinedWeb、去重PILE、RedPajama 的子集和Dolma v1.6 的子集,总计约1.8 万亿个token。使用这些数据集之前,请检查许可协议和条款。各型号的详细信息请参见下表: OpenELM-270M OpenELM-450M OpenELM-1_1B OpenELM-3B

苹果发布了开源微语言模型OpenELM,具有开源训练和推理框架,采用分层缩放策略提高准确性。发布了多个参数模型,包括270M、450M、1.1B和3B。与微软的Phi-3-mini相比,OpenELM 3B在竞赛中表现出更好的性能。

相关推荐 去reddit讨论