MATES: 基于模型的数据选择与数据影响模型的高效预训练
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究通过自主数据选择和创新策略,提高了语言模型在数学推理方面的能力。他们发布了一个经过筛选的开源数据集,并通过预训练工作提高了模型的性能和效率。该研究对增强模型数学推理能力具有潜力。
🎯
关键要点
- 研究通过自主数据选择提高语言模型在数学推理方面的能力。
- 引入创新策略,利用元提示语言模型作为零-shot 验证器,自主评估和选择高质量数学内容。
- 发布经过筛选的开源 AutoMathText 数据集,包含超过 200GB 数据。
- 将7B参数的Mistral语言模型在AutoMathText数据集上进行连续预训练,显著提高下游性能。
- 预训练标记效率提高2倍,显示出增强模型数学推理能力的潜力。
➡️