Skywork-13B是一个基于3.2万亿标记训练的大型语言模型系列,采用两阶段训练方法,表现出色,并发布了SkyPile语料库。同时,提出了一种新颖的泄漏检测方法,证明测试数据污染是一个迫切需要LLM社区进一步研究的问题。
完成下面两步后,将自动完成登录并继续当前操作。