小红花·文摘

OpenAI的Scaling Laws被视为大语言模型的摩尔定律。清华大学博士指出，为了提升模型性能，需要增加数据量至少10个数量级。华盛顿大学等机构提出了实验测试平台DCLM，通过固定训练代码，鼓励研究人员提出新的训练集来进行创新。DCLM-BASELINE是一个高质量训练集，通过基于模型的过滤达到了64%的准确性。DCLM提供了新的思考范式和可能性。