BriefGPT - AI 论文速递 ·

自我训练与一致性相结合：通过一致性驱动的推理评估提升大型语言模型的推理能力

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

本文介绍了提升大型语言模型推理能力的方法，包括自我训练、反思层次、MaRio算法和MC-CoT策略。这些方法通过降低采样成本、提高一致性和准确性，显著改善了模型在复杂推理任务中的表现。同时，研究提出了新的验证策略，强调理据有效性对答案验证器的重要性。

🎯

关键要点

使用未标注的数据进行自我训练和推理提高，通过fine-tuning在多个任务上达到了SOTA水平。
自适应一致性技术能够将采样成本降低最多6倍并保持高精度。
REFLEX方法通过构建信念图和使用形式化的约束推理器，改善了一致性而不降低答案准确性。
MaRio算法使小型语言模型生成合理、多样且一致的自我理解解释，提高问题回答的准确性。
MC-CoT通过自相容性训练策略生成多个理由和答案，提高多模态推理的准确性和鲁棒性。
自主探索方法在GSM8K和MATH测试集上分别取得11.57%和2.89%的推理能力改进。
自我纠正训练通过批判不正确回答并进行监督微调，提升了数学和常识推理的能力。
推理感知自一致性（RASC）框架显著降低采样使用量，并在准确性上实现最高达5%的提升。
REPS方法有效选择有效理据，显著提高基于正确理据训练的验证器性能。
改进的自一致性框架通过分析多条推理路径，显著提高复杂推理任务中的模型性能。

❓

延伸问答

如何通过自我训练提高大型语言模型的推理能力？

通过使用未标注的数据进行自我训练和fine-tuning，可以在多个任务上达到SOTA水平，从而提升推理能力。

什么是MaRio算法，它如何改善小型语言模型的表现？

MaRio算法使小型语言模型生成合理、多样且一致的自我理解解释，从而提高问题回答的准确性。

MC-CoT策略在多模态推理中有什么重要性？

MC-CoT通过自相容性训练策略生成多个理由和答案，并通过投票选择最准确的方法，从而提高多模态推理的准确性和鲁棒性。

REFLEX方法是如何改善大型语言模型的一致性的？

REFLEX方法通过构建信念图和使用形式化的约束推理器，减少答案与其他信念的依赖关系，从而改善一致性而不降低准确性。

推理感知自一致性（RASC）框架的主要优势是什么？

RASC通过动态调整样本生成数量，显著降低采样使用量，并在准确性上实现最高达5%的提升。

如何通过自我纠正训练提升模型的推理能力？

自我纠正训练通过批判不正确回答并进行监督微调，提升了数学和常识推理的能力。

🏷️

标签

MaRio算法一致性大型语言模型推理能力自我训练验证策略

➡️

继续阅读

本周在PSC (231) | 2026年6月29日
文章讨论了一个新的阻碍因素，尽管影响不大，但仍需解决。同时提到在大型语言模型（LLM）政策讨论中有更多活动，计划下周发布相关想法。
Claude的脑子里，也长出了一块「意识」
Anthropic的研究发现，Claude模型内部存在类似人脑的“J-space”，用于处理意识和潜意识的思维。实验验证了J-space的可报告性、可操控...
OpenAI发布GeneBench-Pro，在129个问题/10个领域内评估AI科研能力
GeneBench-Pro是一个新基准，用于评估智能体在多阶段统计推理中的能力，涵盖基因组学和药物基因组学等领域。该基准包含129个经过专家审查的问题，旨...
八大开源模型推理路径对比：GLM DeepSeek Qwen
八个主流大语言模型在解答同一道概率题时表现出显著的思维路径差异。GLM 5.2表现自信，修正较少；而DeepSeek V4 Pro则频繁自我怀疑，思维过程...
一分钟读论文：《Agent能否从失败中进化——自主策略演化评估基准EvoPolicyGym》
阿里巴巴达摩院提出了“自主策略演化”评估新范式EvoPolicyGym，关注在固定预算内Agent如何迭代改进策略。该方法通过轨迹级诊断框架分析预算分配、...
一分钟读论文：《当Agent学会自我进化——自主策略演化评估框架EvoPolicyGym》
阿里巴巴达摩院的论文《EvoPolicyGym》首次将自主策略演化形式化为独立评估设定，提出在固定交互预算内评估Agent的策略改进能力。研究表明，强自主...