机器之心 ·

Weights, Code, and Datasets Fully Open-Sourced: Apple's Small Model Surpasses Mistral-7B

💡 原文日文，约1300字，阅读约需3分钟。

📝

内容提要

OpenAI上线GPT-4o-mini，苹果发布DCLM-7B开源模型，性能超越Mistral-7B，接近其他领先模型。DCLM是开源的最佳模型，提供模型权重、训练代码和预训练数据集。DCLM是语言模型新基准，通过高质量数据集提高模型性能。DCLM-7B在多任务上表现优秀，计算量仅为Llama 3 8B的1/6。

🎯

关键要点

OpenAI上线小模型GPT-4o-mini，苹果发布DCLM-7B开源模型。
DCLM-7B性能超越Mistral-7B，接近其他领先模型如Llama 3和Gemma。
DCLM被称为真正开源的最佳模型，开源模型权重、训练代码和预训练数据集。
DCLM是语言模型数据比较的新基准，旨在通过高质量数据集提高模型性能。
研究团队发现基于模型的过滤是构建高质量训练集的关键。
DCLM-7B在MMLU基准上5-shot准确率达到64%，计算量仅为Llama 3 8B的1/6。
DCLM-7B在53个自然语言理解任务上的表现与Mistral-7B和Llama 3 8B相媲美。
大部分其他模型虽然开放权重但封闭数据，DCLM因此被视为真正开源。

❓

延伸问答

DCLM-7B模型的主要特点是什么？

DCLM-7B是一个开源模型，性能超越Mistral-7B，接近Llama 3和Gemma，提供模型权重、训练代码和预训练数据集。

DCLM-7B在MMLU基准上的表现如何？

DCLM-7B在MMLU基准上5-shot准确率达到64%，与Mistral-7B和Llama 3 8B相媲美。

DCLM模型如何提高语言模型的性能？

DCLM通过设计高质量数据集和使用标准化框架进行实验，找出最佳的数据整理策略来提高模型性能。

DCLM-7B与其他模型相比有什么优势？

DCLM-7B的计算量仅为Llama 3 8B的1/6，同时在多个自然语言理解任务上表现优异，且完全开源。

为什么DCLM被称为真正开源的最佳模型？

因为DCLM不仅开源了模型权重，还开源了训练代码和预训练数据集，而大部分其他模型虽然开放权重但封闭数据。

DCLM-7B的训练数据集是如何构建的？

DCLM-7B使用基于模型的过滤方法，从较大的数据集中自动选择高质量数据，构建了高质量数据集DCLM-BASELINE。

🏷️