机器之心 ·

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

💡 原文中文，约6800字，阅读约需16分钟。

📝

内容提要

研究表明，通过延长思考时间，小模型在性能上可以超越大模型，尤其在资源受限的情况下。HuggingFace探索了多种搜索策略，发现集束搜索和多样性验证器树搜索（DVTS）显著提高了小模型在复杂数学问题上的准确性。

🎯

🔎

小模型在延长思考时间后能够超越大模型，尤其在资源受限的情况下表现突出。然而，这种方法的有效性依赖于模型的自我改进能力和验证器的质量。若模型缺乏自我改进机制，可能会限制其在复杂任务中的表现。

在不同的计算预算和问题难度下，选择合适的搜索策略至关重要。集束搜索在中等和困难问题上表现优越，而Best-of-N在简单问题上更具优势。理解这些策略的适用场景可以帮助优化模型的性能。

未来的研究可以集中在提高验证器的稳健性和自我验证能力上。将思维融入生成过程和开发更多的过程奖励模型（PRM）也将是推动小模型性能提升的重要方向。这些进展可能会进一步缩小小模型与大模型之间的差距。

❓

小模型通过延长思考时间，能够在复杂数学问题上表现更好，尤其在资源受限的情况下。研究表明，动态推理策略使得小模型在更难的问题上思考更长时间，从而提高了准确性。

HuggingFace探索了集束搜索和多样性验证器树搜索（DVTS）等搜索策略，这些策略显著提高了小模型在复杂数学问题上的准确性。

计算-最优扩展策略是一种选择最佳搜索方法和超参数的策略，旨在在给定计算预算下达到最佳性能。

DVTS通过最大化候选解的多样性来提升性能，尤其在较大计算预算时表现更佳，能够有效提高解决方案的多样性和整体准确性。

HuggingFace的研究结果表明，通过延长思考时间和优化搜索策略，小模型在性能上有潜力超越大模型，未来可以进一步探索强验证器和自我验证等方向。

集束搜索在中等和困难难度问题上表现优越，而Best-of-N在较简单问题和较高计算预算时更有效，二者各有优劣，适用于不同的场景。

🏷️