MATES: 基于模型的数据选择与数据影响模型的高效预训练

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究通过自主数据选择和创新策略,提高了语言模型在数学推理方面的能力。他们发布了一个经过筛选的开源数据集,并通过预训练工作提高了模型的性能和效率。该研究对增强模型数学推理能力具有潜力。

🎯

关键要点

  • 研究通过自主数据选择提高语言模型在数学推理方面的能力。
  • 引入创新策略,利用元提示语言模型作为零-shot 验证器,自主评估和选择高质量数学内容。
  • 发布经过筛选的开源 AutoMathText 数据集,包含超过 200GB 数据。
  • 将7B参数的Mistral语言模型在AutoMathText数据集上进行连续预训练,显著提高下游性能。
  • 预训练标记效率提高2倍,显示出增强模型数学推理能力的潜力。
➡️

继续阅读