苹果OpenELM:开源小语言模型
💡
原文中文,约900字,阅读约需2分钟。
📝
内容提要
苹果发布了开源微语言模型OpenELM,具有开源训练和推理框架,采用分层缩放策略提高准确性。发布了多个参数模型,包括270M、450M、1.1B和3B。与微软的Phi-3-mini相比,OpenELM 3B在竞赛中表现出更好的性能。
🎯
关键要点
- 苹果发布了开源微语言模型OpenELM,具有开源训练和推理框架。
- OpenELM采用分层缩放策略,提高模型的准确性。
- 发布了多个参数模型,包括270M、450M、1.1B和3B。
- 预训练数据集包含RefinedWeb、去重PILE、RedPajama和Dolma v1.6的子集,总计约1.8万亿个token。
- OpenELM 3B在竞赛中表现优于微软的Phi-3-mini,MMLU得分为24.80。
- OpenELM-3b-instruct在HellaSwag和WinoGrande任务中表现良好。
➡️