Fox-1技术报告
📝
内容提要
本研究针对小型语言模型(SLMs)预训练效率的提升问题,提出了Fox-1系列模型,采用了一种新颖的三阶段数据课程和更深层次的架构设计。研究表明,Fox-1模型在多个基准测试中表现出色,具有良好的推理速度和吞吐量,为开放源代码社区的民主化贡献了力量。
➡️
本研究针对小型语言模型(SLMs)预训练效率的提升问题,提出了Fox-1系列模型,采用了一种新颖的三阶段数据课程和更深层次的架构设计。研究表明,Fox-1模型在多个基准测试中表现出色,具有良好的推理速度和吞吐量,为开放源代码社区的民主化贡献了力量。