7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队
让教师模型“教学”而不是“解决”
Sanaka AI提出了一种新方法,使教师模型能够像人类教师一样进行启发式教学,训练出7B小模型在推理能力上超越671B的DeepSeek-R1。该方法通过逐步解释提高了教学效率,并显著降低了训练成本。
让教师模型“教学”而不是“解决”
Sanaka AI提出了一种新方法,使教师模型能够像人类教师一样进行启发式教学,训练出7B小模型在推理能力上超越671B的DeepSeek-R1。该方法通过逐步解释提高了教学效率,并显著降低了训练成本。