大型推理模型(LRMs)在长链推理能力上面临挑战,现有评测体系无法有效评估其复杂任务表现。复旦大学与美团推出的R-HORIZON框架通过问题组合方法提升了模型的多步推理能力。评测显示,主流模型在长链推理中性能普遍下降,存在推理长度、反思机制和预算分配等瓶颈。通过强化学习训练,R-HORIZON显著提升了模型推理性能,标志着研究范式的转变。
研究发现,长链推理中的反思并非纠错,而是加重幻觉。北京邮电大学的团队指出,推理链越长,错误越容易固化,尤其在高风险领域。目前的检测方法效果不佳,难以有效识别和修正幻觉。
长链推理提升了大型语言模型的推理能力,但效率低下且首次生成时间增加。我们提出了一种新训练方法,通过强化学习引导模型交替思考与回答多步问题。实验结果显示,该方法平均减少首次生成时间80%,并提高Pass@1准确率19.3%。
本研究提出了一种新颖的数据标注方法,解决了现有过程奖励模型在长链推理中仅关注初始错误的问题。通过引入错误传播和终止概念,显著提升了模型在自我纠正和推理方面的性能,实验结果优于现有模型。
本研究提出了海姆达尔模型,旨在提升大语言模型在长链推理中的验证能力。通过纯强化学习,验证准确率从62.5%提升至94.5%,并在重复采样后达到97.5%。该模型在复杂数学问题上表现优异,并可通过悲观验证方法增强其解决能力。
本研究提出VAPO框架,解决了价值基础强化学习在长链推理中的局限性,有效应对模型偏差、序列长度和奖励稀疏问题,在AIME 2024数据集上取得了60.4的最佳成绩。
本研究探讨了大型推理模型(LRMs)在长链推理中的不安全输出问题,特别是在代码安全和信息传播方面。通过引入SafeChain安全训练数据集并对模型进行微调,研究表明该方法提高了模型的安全性,同时在六个推理基准上保持了良好的性能。
本研究探讨大型语言模型(LLM)在复杂推理中的表现,强调推理结构的重要性。研究发现,长链推理的结构对学习至关重要,而单个推理步骤的内容影响较小,为未来模型训练提供指导。
南洋理工大学、腾讯和清华大学的研究提出了多模态模型Insight-V,旨在提升视觉推理能力。该模型通过生成高质量推理数据和多智能体系统,显著改善了长链推理效果,超越了现有模型,推动了多模态视觉推理的发展。
完成下面两步后,将自动完成登录并继续当前操作。