苹果OpenELM:开源小语言模型
原文中文,约900字,阅读约需2分钟。发表于: 。OpenELM:具有开源训练和推理框架的高效语言模型系列OpenELM 使用分层缩放策略来有效地分配变压器模型每一层内的参数,从而提高准确性。我们使用CoreNet库预训练 OpenELM 模型。我们发布了具有 270M、450M、1.1B 和 3B 参数的预训练和指令调整模型。我们的预训练数据集包含RefinedWeb、去重PILE、RedPajama 的子集和Dolma v1.6...
苹果发布了开源微语言模型OpenELM,具有开源训练和推理框架,采用分层缩放策略提高准确性。发布了多个参数模型,包括270M、450M、1.1B和3B。与微软的Phi-3-mini相比,OpenELM 3B在竞赛中表现出更好的性能。