Skywork:一种更开放的双语基础模型

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

Skywork-13B是一个基于3.2万亿标记训练的大型语言模型系列,采用两阶段训练方法,表现出色,并发布了SkyPile语料库。同时,提出了一种新颖的泄漏检测方法,证明测试数据污染是一个迫切需要LLM社区进一步研究的问题。

🎯

关键要点

  • Skywork-13B是一个大型语言模型系列,基于超过3.2万亿标记训练。
  • 采用两阶段训练方法,包括通用训练和特定领域增强训练。
  • 模型在流行基准测试上表现出色,推动了中国语言建模的技术水平。
  • 提出了一种新颖的泄漏检测方法,强调测试数据污染是LLM社区需要进一步研究的问题。
  • 发布了Skywork-13B及其训练过程中的中间检查点。
  • 发布了部分SkyPile语料库,包含超过1500亿个网络文本标记,是最大的高质量开放中文预训练语料库。
  • 希望Skywork-13B和开放的语料库能成为高质量LLMs的宝贵开源资源。
➡️

继续阅读