HyperAI超神经 ·

斯坦福/苹果等23所机构发布DCLM基准测试，高质量数据集能否撼动Scaling Laws？基础模型与Llama3 8B表现相当

💡 原文中文，约5300字，阅读约需13分钟。

📝

内容提要

OpenAI的Scaling Laws被视为大语言模型的摩尔定律。清华大学博士指出，为了提升模型性能，需要增加数据量至少10个数量级。华盛顿大学等机构提出了实验测试平台DCLM，通过固定训练代码，鼓励研究人员提出新的训练集来进行创新。DCLM-BASELINE是一个高质量训练集，通过基于模型的过滤达到了64%的准确性。DCLM提供了新的思考范式和可能性。

🎯

关键要点

OpenAI的Scaling Laws被视为大语言模型的摩尔定律，模型性能随着模型大小、数据集大小和计算浮点数的增加而提高。
清华大学博士指出，为了提升模型性能，数据量需要增加至少10个数量级。
华盛顿大学等机构提出了实验测试平台DCLM，鼓励研究人员提出新的训练集以进行创新。
DCLM-BASELINE是一个高质量训练集，通过基于模型的过滤达到了64%的准确性。
DCLM的工作流程包括选择计算规模、建立数据集、训练模型和模型评估。
DCLM通过过滤和混合数据来创建数据集，使用固定的方法进行模型训练。
研究发现，基于模型的过滤是构建高质量训练集的关键，DCLM-BASELINE在MMLU测试中表现优异。
Scaling Laws的未来走向存在争议，专家们认为需要寻找新的方法和思路来提升模型性能。
比尔·盖茨认为Scaling Laws快要走到尽头，未来的进步在于实现更接近人类的元认知能力。
DCLM基准测试为提升模型性能提供了一种新的思考范式和可能性。

❓

延伸问答

DCLM基准测试的主要目标是什么？

DCLM基准测试旨在通过固定训练代码，鼓励研究人员提出新的训练集，以提升语言模型的性能。

Scaling Laws对大语言模型的影响是什么？

Scaling Laws被视为大语言模型的摩尔定律，模型性能随着模型大小、数据集大小和计算浮点数的增加而提高。

DCLM-BASELINE数据集的准确性如何？

DCLM-BASELINE通过基于模型的过滤达到了64%的准确性。

清华大学博士对数据量的看法是什么？

清华大学博士指出，为了提升模型性能，数据量需要增加至少10个数量级。

DCLM的工作流程包括哪些步骤？

DCLM的工作流程包括选择计算规模、建立数据集、训练模型和模型评估四个步骤。

比尔·盖茨对Scaling Laws的看法是什么？

比尔·盖茨认为Scaling Laws快要走到尽头，未来的进步在于实现更接近人类的元认知能力。

🏷️

继续阅读

开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...
Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...