机器之心 ·

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

💡 原文中文，约7800字，阅读约需19分钟。

📝

内容提要

ReasonFlux是一个多层次的LLM推理框架，通过结构化思维模板和层次化强化学习提高推理效率和可解释性。它在多个数学推理数据集上表现出色，展示了小模型的潜力和广泛应用前景。

🎯

🔎

ReasonFlux通过结构化思维模板和层次化强化学习，显著提高了推理的效率和可解释性。这种方法不仅减少了推理过程中的搜索空间，还使得模型的推理步骤更加透明，便于调试和优化。与传统方法相比，ReasonFlux在处理复杂问题时展现出更高的准确性和效率，具有广泛的应用潜力。

尽管ReasonFlux仅使用32B参数，但在多个数学推理数据集上表现出色，甚至在某些情况下超越了大模型。这表明，通过优化推理框架，小模型也能实现高效的推理能力，未来可能在更多领域如代码生成和医疗诊断中发挥重要作用。

ReasonFlux的层次化推理机制使得模型能够根据问题的复杂性动态调整推理策略。这种自适应能力不仅提高了推理的准确性，还降低了计算成本，尤其在面对复杂任务时，能够有效利用已有的知识模板，减少不必要的试错过程。

❓

ReasonFlux旨在提高推理效率和可解释性。

通过结构化思维模板和层次化强化学习，ReasonFlux优化了推理过程。

其核心技术包括结构化思维模板抽取、层次化强化学习和新型推理扩展系统。

ReasonFlux在多个数学推理数据集上表现优异，准确率达到91.2%。

ReasonFlux在复杂问题上表现出更高的效率和准确性，且推理过程更具可解释性。

除了数学推理，ReasonFlux还可扩展到代码生成和医疗诊断等领域。

🏷️