小红花·文摘

该研究提出了一种名为“强化认知专家”（RICE）的方法，旨在解决大规模推理模型中的认知低效问题。该方法在不进行额外训练的情况下，显著提升了推理准确性和认知效率，优于现有技术。

Two Experts Are All You Need to Guide Thinking: Enhancing Cognitive Effort in MoE Reasoning Models Without Additional Training

BriefGPT - AI 论文速递 ·

本研究提出了一种结构化代理蒸馏框架，旨在将大型语言模型压缩为较小的学生模型，同时保持推理准确性和一致性。实验结果显示，该方法在多个基准测试中优于传统蒸馏和模仿学习，显著提高了模型压缩率并保持了性能。

Structured Agent Distillation of Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了零强化学习在多个基础模型中的应用，克服了Qwen2.5模型的局限性。通过调整奖励格式和查询难度，显著提高了推理准确性和回复长度，并首次在小型模型中观察到“恍然大悟”现象。相关代码和工具已开源，支持进一步研究。

SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法CaKE，克服了现有知识编辑在多跳推理中的局限性。实验结果显示，CaKE在MQuAKE数据集上的推理准确性提高了20%。

CaKE：电路感知编辑实现通用知识学习

BriefGPT - AI 论文速递 ·

本文介绍了MPBench，一个多任务多模态基准，旨在评估过程级奖励模型（PRMs）在不同场景中的有效性，以提高推理准确性并推动多模态PRMs的发展。

MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Error Identification

BriefGPT - AI 论文速递 ·

本研究提出了KnowPath框架，旨在解决大型语言模型在回答事实时的幻觉问题。通过结合内部知识与外部知识图，KnowPath提高了推理的准确性，并在多个真实世界数据集上验证了其优越性。

KnowPath: Enhancing Reasoning with Knowledge Graphs for LLM-Generated Inference Paths

BriefGPT - AI 论文速递 ·

该研究提出了“表批判者”框架，旨在提升大型语言模型在表格推理中的一致性和错误纠正能力。通过多个专门代理的协作批判与迭代精炼，实验结果表明该框架显著提高了推理准确性和错误纠正率，同时保持计算效率。

Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning

BriefGPT - AI 论文速递 ·

本研究探讨了思维链（CoT）长度对大语言模型推理准确性的影响，发现推理步骤增加初期性能提升，但在达到一定长度后性能下降，原因在于长推理过程易受噪声干扰。提出了最优CoT长度理论，以优化多步骤推理。

当更多变为更少：理解大语言模型中的思维链长度

BriefGPT - AI 论文速递 ·

本研究提出PSSD方法，旨在提高大型语言模型（LLMs）推理结果的准确性。通过引入人类心理结构的三种角色，PSSD优化了推理过程，显著提升了模型的推理能力，并与现有模型无缝集成。

PSSD: Enabling Self-Denial in Large Language Models through Human Psyche Structure

BriefGPT - AI 论文速递 ·

本研究提出了一种新的语义自验证（SSV）方法，旨在提升大型语言模型的推理准确性，通过生成和验证实例，减少人工验证需求，推动更可靠的AI推理系统的发展。

Formalization of Instance-Based Logical Reasoning Tasks: Utilizing Language Models and Logic Solvers

BriefGPT - AI 论文速递 ·

中国电信人工智能研究院发布的“复杂推理大模型”TeleAI-t1-preview在数学推导和逻辑推理方面表现优异，超越了OpenAI等标杆模型。该模型通过强化学习和创新训练策略，提高了推理准确性，并能清晰展示思考过程，帮助学生理解问题逻辑。

TeleAI “复杂推理大模型” 达竞赛级数学表现，评分超 o1-preview

量子位 ·

本研究提出了一种自适应多方面检索增强（Amar）框架，旨在解决大型语言模型在复杂知识推理中的幻觉和过时知识问题。该方法通过有效检索实体、关系和子图，显著提高了推理准确性，达到了最新研究水平。

Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation

BriefGPT - AI 论文速递 ·

本研究提出了一种基于大型语言模型的新型区分推理方法，有效解决了知识图谱问答中的子图规划与推理问题，显著提升了推理准确性，实验结果在多个基准测试中表现优异。

Differentiated Reasoning in Knowledge Graph Question Answering Based on LLM

BriefGPT - AI 论文速递 ·

本文提出了一种名为KG-CoI的知识支持思想链方法，旨在改善大型语言模型在科学假设生成中的“幻觉”问题。该方法通过整合知识图谱的结构化知识，提升了推理过程的准确性，降低了错误输出的可能性，对科学研究产生积极影响。

Improving Scientific Hypothesis Generation with Knowledge-Grounded Large Language Models

BriefGPT - AI 论文速递 ·

本文介绍了结合大型语言模型（LLMs）与知识图谱的创新方法，如LGOT、GNN-RAG和GraphRAG，旨在提高推理准确性和检索效率。这些方法通过优化逻辑查询和图结构，显著提升了复杂任务的表现，解决了信息过时和生成错误的问题，推动了知识图谱问答的研究进展。

简单有效：图形与大型语言模型在知识图谱基础的检索增强生成中的作用

BriefGPT - AI 论文速递 ·

本文探讨大型语言模型（LLMs）在因果推理中的能力，强调其在推理准确性、解释性和鲁棒性方面的潜力。研究表明，LLMs可以作为人类知识的代理，降低因果分析的人力成本，并推动因果研究的发展。通过基准测试和干预研究，评估LLMs对因果图的理解能力，发现其在特定领域知识和上下文信息的影响下表现优异，但对编码敏感。

因果路径上的因果干预：映射GPT-2从语法到语义的推理

BriefGPT - AI 论文速递 ·

本文介绍了一种“思维逆转”框架，通过偏好引导的反向推理和元认知机制，提升大型语言模型在数学和逻辑推理中的表现。实验结果表明，该方法在准确性和效率上优于现有方法。

Cognitive Reversal: Enhancing Large Language Models through Preference-Guided Backward Reasoning Warm-Up

BriefGPT - AI 论文速递 ·

本文探讨了将符号逻辑推理与神经网络结合的方法，提出了改进的神经模块网络和可解释的二层神经网络，以提高推理的准确性和可解释性。研究表明，新模型在多个任务中表现优越，推理效率和逻辑性显著提升。

神经推理网络：高效可解释的神经网络与自动文本解释

BriefGPT - AI 论文速递 ·

本文介绍了提升大型语言模型（LLM）在数学推理能力的新方法，如CoT-Max和Step-DPO。研究表明，通过自我纠正训练和偏好反馈学习，模型在数学和常识推理任务上显著提升，尤其在处理计算错误时表现突出。这些方法展示了提高模型推理准确性的潜力，并为未来研究提供了方向。

细微错误的重要性：通过注入错误的自我编辑进行偏好学习

BriefGPT - AI 论文速递 ·

本文综述了大型语言模型（LLMs）在推理方面的研究进展，探讨了提高推理能力的方法和评估标准。研究发现，LLMs在多跳推理中表现良好，但其推理依赖于训练数据的表面模式，而非真正的推理能力。研究者们通过新方法和知识编辑，致力于提升LLMs的推理准确性和鲁棒性。

貌似合理的干扰项在多跳推理中的作用：大型语言模型是否是细致的读者？

BriefGPT - AI 论文速递 ·