小红花·文摘 - 小红花技术领袖俱乐部

R-HORIZON：探索长程推理边界，复旦NLP&美团LongCat联合提出LRMs能力评测新框架

R-HORIZON：探索长程推理边界，复旦NLP&美团LongCat联合提出LRMs能力评测新框架

美团技术团队 ·

研究发现，长链推理中的反思并非纠错，而是加重幻觉。北京邮电大学的团队指出，推理链越长，错误越容易固化，尤其在高风险领域。目前的检测方法效果不佳，难以有效识别和修正幻觉。

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮

量子位 ·

通过强化学习实现大型语言模型的交替推理

通过强化学习实现大型语言模型的交替推理

Apple Machine Learning Research ·

本研究提出了一种新颖的数据标注方法，解决了现有过程奖励模型在长链推理中仅关注初始错误的问题。通过引入错误传播和终止概念，显著提升了模型在自我纠正和推理方面的性能，实验结果优于现有模型。

Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了海姆达尔模型，旨在提升大语言模型在长链推理中的验证能力。通过纯强化学习，验证准确率从62.5%提升至94.5%，并在重复采样后达到97.5%。该模型在复杂数学问题上表现优异，并可通过悲观验证方法增强其解决能力。

Heimdall: Test-Time Scaling in Generative Verification

BriefGPT - AI 论文速递 ·

本研究提出VAPO框架，解决了价值基础强化学习在长链推理中的局限性，有效应对模型偏差、序列长度和奖励稀疏问题，在AIME 2024数据集上取得了60.4的最佳成绩。

VAPO: 高效可靠的强化学习框架用于高级推理任务

BriefGPT - AI 论文速递 ·

本研究探讨了大型推理模型（LRMs）在长链推理中的不安全输出问题，特别是在代码安全和信息传播方面。通过引入SafeChain安全训练数据集并对模型进行微调，研究表明该方法提高了模型的安全性，同时在六个推理基准上保持了良好的性能。

SafeChain: The Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLM）在复杂推理中的表现，强调推理结构的重要性。研究发现，长链推理的结构对学习至关重要，而单个推理步骤的内容影响较小，为未来模型训练提供指导。

Large Language Models Can Easily Learn to Reason from Demonstrations: Structure, Not Content, is Key!

BriefGPT - AI 论文速递 ·

The Multi-Agent Architecture Insight-V is Here! Breaking Through the Bottleneck of Long-Chain Visual Reasoning

The Multi-Agent Architecture Insight-V is Here! Breaking Through the Bottleneck of Long-Chain Visual Reasoning

机器之心 ·