BriefGPT - AI 论文速递 ·

MATES: 基于模型的数据选择与数据影响模型的高效预训练

💡 原文中文，约1300字，阅读约需4分钟。

📝

内容提要

本文探讨了利用无标签开放数据进行语言模型的预训练和微调，提出了一种基于影响子集选择（ISS）的方法，以降低领域特定数据需求并提高训练效率。研究表明，使用小规模数据集可获得与大型模型相媲美的性能，并通过自主数据选择和优化算法显著提升模型在数学推理等任务中的能力。

🎯

关键要点

本文提出了一种基于影响子集选择（ISS）的方法，旨在利用无标签开放数据进行语言模型的预训练和微调。
该方法通过选择较小的预训练语料库子集，以较低的计算成本获得与大型模型相媲美的性能。
研究表明，使用小规模数据集可以显著提高模型在数学推理等任务中的能力，并降低领域特定数据的需求。
通过自主数据选择和优化算法，模型的训练效率得到了显著提升，预训练标记效率提高了2倍。
我们发布了经过筛选的开源AutoMathText数据集，包含超过200GB的数据，旨在增强模型的数学推理能力。

❓

延伸问答

什么是影响子集选择（ISS）方法？

影响子集选择（ISS）是一种通过选择较小的预训练语料库子集来优化语言模型预训练的方法，旨在降低计算成本并提高性能。

使用小规模数据集进行预训练的优势是什么？

使用小规模数据集可以显著提高模型在特定任务中的能力，并降低对领域特定数据的需求。

AutoMathText数据集的特点是什么？

AutoMathText数据集是一个开源数据集，包含超过200GB的数据，旨在增强模型的数学推理能力。

该研究如何提高模型的训练效率？

研究通过自主数据选择和优化算法显著提升了模型的训练效率，预训练标记效率提高了2倍。

该方法在数学推理任务中的表现如何？

该方法通过自主数据选择显著提高了模型在数学推理等任务中的能力，表现与大型模型相媲美。

如何利用无标签开放数据进行语言模型的预训练？

可以通过选择影响子集并结合优化算法，利用无标签开放数据进行语言模型的预训练和微调。

🏷️

标签

影响子集选择微调无标签数据语言模型预训练

➡️

继续阅读

不同模型厂同一家Agentic Infra，AGI时代的地基终于浮出水面
大模型时代的共同选择
迅策科技TokenOS数据Token化能力首次大规模进入私募股权投资领域
(全球TMT 2026年07月20日讯)7月19日，迅策科技发布公告，宣布其与洪泰基金的控股公司青岛鑫辰科创实 […]
实测千问 Qwen3.8 预览版，国产模型开始围攻 Fable 5
还有 DeepSeek、智谱、MiniMax……#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
1.5B开源通用VLA模型，冲进具身智能第一梯队
面壁智能发布MiniCPM-Robot系列模型
Kimi K3上线48小时：模型爆火，GPU爆肝，会员停售
市场表现也跟着加速狂飙
Google just bet its inference future on a chip built for one model
The race to make AI inference cheaper is pushing chip design beyond general-p...