本文提出了一种双阶段框架,结合长短链推理模型,以提高长链推理在复杂任务中的效率。该方法通过双层偏好训练,指导模型选择合适的推理风格,并在每个风格组内偏好简明且正确的推理。实验结果表明,该方法显著降低了推理成本,同时保持了性能。
完成下面两步后,将自动完成登录并继续当前操作。