OpenAI的Scaling Laws被视为大语言模型的摩尔定律。清华大学博士指出,为了提升模型性能,需要增加数据量至少10个数量级。华盛顿大学等机构提出了实验测试平台DCLM,通过固定训练代码,鼓励研究人员提出新的训练集来进行创新。DCLM-BASELINE是一个高质量训练集,通过基于模型的过滤达到了64%的准确性。DCLM提供了新的思考范式和可能性。
完成下面两步后,将自动完成登录并继续当前操作。