O1-Pruner:用于O1-like推理修剪的长度协调微调

📝

内容提要

本研究解决了长思维推理大语言模型在面对复杂问题时推理时间过长带来的效率挑战。我们提出了一种新颖的长度协调微调方法(O1-Pruner),通过预采样评估模型性能,结合强化学习风格的微调,促使模型在保持准确性的同时生成更短的推理过程。实验结果表明,O1-Pruner显著降低了推理开销,同时提高了准确性,提供了一种有效的解决方案。

🏷️

标签

➡️

继续阅读