OpenBA:一个从零开始的开源 15B 双向语言模型预训练

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文介绍了一个开源的150亿双语不对称seq2seq模型OpenBA,通过三阶段训练策略从头开始训练模型,展现出卓越性能,提供了预训练的主要细节,并重构了代码以符合Huggingface Transformers Library的设计原则。

🎯

关键要点

  • OpenBA是一个开源的150亿双语不对称seq2seq模型。
  • 该模型通过三阶段训练策略从头开始训练,展现出卓越性能。
  • OpenBA在380B令牌时的性能与LLaMA-70B和BLOOM-176B相媲美。
  • 报告提供了预训练的主要细节,包括数据处理和模型架构设计的经验观察。
  • 代码已重构以符合Huggingface Transformers Library的设计原则,方便开发者使用。
  • 不同训练阶段的检查点已在指定链接上发布。
➡️

继续阅读