覆盖数学/代码/科学/谜题,高质量推理数据集汇总,助力复现DeepSeek超强推理能力
💡
原文中文,约2600字,阅读约需7分钟。
📝
内容提要
近期,推理模型热潮持续升温,OpenAI、xAI 和 Anthropic 等公司推出新模型。推理能力成为模型性能的重要指标,而数据质量是实现深度逻辑推演的关键。构建高质量推理数据集需精心设计,模拟人类解题过程。DeepSeek 在 AIME 数学竞赛中的成功,提升了行业对推理数据集的关注。
🎯
关键要点
- 推理模型热潮持续升温,OpenAI、xAI 和 Anthropic 等公司推出新模型。
- 推理能力成为模型性能的重要指标,数据质量是实现深度逻辑推演的关键。
- 构建高质量推理数据集需精心设计,模拟人类解题过程。
- DeepSeek 在 AIME 数学竞赛中的成功提升了行业对推理数据集的关注。
- 推理数据集的构建需严格隔离测试集与训练集,并引入动态更新机制。
- 数据集需设计多个逻辑链条,模拟人类解题过程中的试错与思考。
- OpenThoughts-114k 数据集专注于数学、代码、科学和谜题等领域,包含 11.4 万个高质量样本。
- Bespoke-Stratos-17k 数据集包含问题、推理轨迹和答案,覆盖多个领域。
- Dolphin-R1 数据集包含约 80 万个样本,旨在提升模型在推理任务中的表现。
- LIMO 数学推理基准数据集仅包含 817 个高质量数学推理样本。
- NuminaMath-1.5 数据集适用于数学教育,包含约 900k 个高质量竞赛级别数学问题。
- OpenR1-Math-220k 数据集包含 22 万条高质量的数学问题及其推理轨迹。
- Chinese DeepSeek R1 Distill data 数据集包含 110K 样本,涵盖数学和通用类型数据。
➡️