苹果OpenELM：开源小语言模型

原文约900字，阅读约需2分钟。发表于：。

OpenELM：具有开源训练和推理框架的高效语言模型系列OpenELM 使用分层缩放策略来有效地分配变压器模型每一层内的参数，从而提高准确性。我们使用CoreNet库预训练 OpenELM 模型。我们发布了具有 270M、450M、1.1B 和 3B 参数的预训练和指令调整模型。我们的预训练数据集包含RefinedWeb、去重PILE、RedPajama 的子集和Dolma v1.6 的子集，总计约1.8 万亿个token。使用这些数据集之前，请检查许可协议和条款。各型号的详细信息请参见下表： OpenELM-270M OpenELM-450M OpenELM-1_1B OpenELM-3B

苹果发布了开源微语言模型OpenELM，具有开源训练和推理框架，采用分层缩放策略提高准确性。发布了多个参数模型，包括270M、450M、1.1B和3B。与微软的Phi-3-mini相比，OpenELM 3B在竞赛中表现出更好的性能。