苹果OpenELM:开源小语言模型

💡 原文中文,约900字,阅读约需2分钟。
📝

内容提要

苹果发布了开源微语言模型OpenELM,具有开源训练和推理框架,采用分层缩放策略提高准确性。发布了多个参数模型,包括270M、450M、1.1B和3B。与微软的Phi-3-mini相比,OpenELM 3B在竞赛中表现出更好的性能。

🎯

关键要点

  • 苹果发布了开源微语言模型OpenELM,具有开源训练和推理框架。
  • OpenELM采用分层缩放策略,提高模型的准确性。
  • 发布了多个参数模型,包括270M、450M、1.1B和3B。
  • 预训练数据集包含RefinedWeb、去重PILE、RedPajama和Dolma v1.6的子集,总计约1.8万亿个token。
  • OpenELM 3B在竞赛中表现优于微软的Phi-3-mini,MMLU得分为24.80。
  • OpenELM-3b-instruct在HellaSwag和WinoGrande任务中表现良好。
➡️

继续阅读