大型推理模型(LRMs)在长链推理能力上面临挑战,现有评测体系无法有效评估其复杂任务表现。复旦大学与美团推出的R-HORIZON框架通过问题组合方法提升了模型的多步推理能力。评测显示,主流模型在长链推理中性能普遍下降,存在推理长度、反思机制和预算分配等瓶颈。通过强化学习训练,R-HORIZON显著提升了模型推理性能,标志着研究范式的转变。
完成下面两步后,将自动完成登录并继续当前操作。