小红花·文摘

本文提出了一种双阶段框架，结合长短链推理模型，以提高长链推理在复杂任务中的效率。该方法通过双层偏好训练，指导模型选择合适的推理风格，并在每个风格组内偏好简明且正确的推理。实验结果表明，该方法显著降低了推理成本，同时保持了性能。