OpenBA:一个从零开始的开源 15B 双向语言模型预训练
原文中文,约600字,阅读约需2分钟。发表于: 。大型语言模型(LLM)在多个自然语言处理任务上展现出卓越性能。本报告介绍了 OpenBA,这是一个开源的 150 亿双语不对称 seq2seq 模型,为中文导向的开源模型社区做出了贡献。我们通过有效且高效的技术增强了 OpenBA,并采用三阶段训练策略从头开始训练模型。我们的解决方案在只有 380B 令牌时也能达到与 LLaMA-70B 在 BELEBELE 基准上、BLOOM-176B...
本文介绍了一个开源的150亿双语不对称seq2seq模型OpenBA,通过三阶段训练策略从头开始训练模型,展现出卓越性能,提供了预训练的主要细节,并重构了代码以符合Huggingface Transformers Library的设计原则。