小红花·文摘

DeepSeek R1 是中国 AI 公司推出的模型，采用纯强化学习实现自主推理，突破传统监督学习模式。R1-Zero 模型无需人类标注，展现出链式推理能力。GRPO 算法提升训练效率，简单的奖励系统驱动复杂推理策略。R1 的成功降低了推理模型的门槛，启发了新的研究方向，展示了纯强化学习的潜力，标志着 AI 训练的重要转变。

DeepSeek-R1：用纯强化学习解锁大语言模型的推理能力

Micropaper ·

本研究探讨了问答系统中链式推理生成的可解释追踪与最终性能之间的关系。研究表明，基于规则的问题分解方法并不总能确保模型输出正确答案，挑战了知识蒸馏的假设。

Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation

BriefGPT - AI 论文速递 ·

本研究提出链式推理百科全书，以解决大型语言模型在推理策略理解方面的不足，通过自动提取标准和语义嵌入分析来提升模型性能。

链式推理百科全书：分析、预测和控制推理模型的思维方式

BriefGPT - AI 论文速递 ·

本文探讨了链式推理（CoT）在AI安全中的潜在价值，发现其可信度不足。尽管基于结果的强化学习在初期提升了CoT的可信度，但未能持续，表明CoT监控能够识别不良行为，但无法完全消除。

Reasoning Models Do Not Always Express What They Intend

BriefGPT - AI 论文速递 ·

大型语言模型推理突破：降低成本高达70%而不牺牲准确性

DEV Community ·

本研究提出ExCoT框架，解决文本到SQL转换中的推理能力不足问题，通过链式推理和直接偏好优化迭代提升执行准确性，尤其在BIRD和Spider数据集上表现突出。

ExCoT: Optimizing Text-to-SQL Reasoning through Execution Feedback

BriefGPT - AI 论文速递 ·

本研究提出了GraspCoT框架，解决了6自由度抓取中对物体物理特性理解不足的问题。通过链式推理和问答模板优化抓取动作选择，实验结果表明该方法在多物体抓取任务中表现优越，具有实际应用潜力。

GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions

BriefGPT - AI 论文速递 ·

IBM Granite 3.2 引入新视觉语言模型、链式推理能力及改进的时间序列分析

InfoQ ·

人工智能突破：新方法使模型更好地理解长文档，像人类一样

DEV Community ·

本研究探讨了链式推理对直接偏好优化（DPO）在文本到SQL应用中的影响。通过增强数据集并注入合成的链式推理，DPO的性能显著提升，表明链式推理对DPO潜力的激发至关重要，为文本到SQL模型的构建提供了重要见解。

Uncovering the Impact of Chain-of-Thought Reasoning on Direct Preference Optimization: Insights from Text-to-SQL

BriefGPT - AI 论文速递 ·

本研究提出了开放的泰语推理模型Typhoon T1，解决了低资源语言推理模型开发中的细节不足问题，并通过监督微调方法提升了链式推理能力。

台风T1：开放的泰语推理模型

BriefGPT - AI 论文速递 ·

本文提出了一种基于链式推理的自动提问方法Auto-CoT，能够在多项推理任务中超越手动设计的示例。研究表明，链式思维提示有效提升大型语言模型的推理能力，并通过新的提示方法和策略增强模型在不同难度任务上的表现。实验结果显示，该方法在多个数据集上展现出卓越性能，具备良好的泛化能力和鲁棒性。

链式思维的理论理解：连贯推理与错误意识演示

BriefGPT - AI 论文速递 ·

本文提出了一种基于链式推理的自动提问方法Auto-CoT，能够在多项推理任务中超越手动设计的示例。研究表明，链式思维提示显著提升大型语言模型的推理能力，尤其在复杂任务中。通过引入CoTGenius框架和步骤级辩论方法，优化了推理过程，减少了错误，提升了模型表现。

思维的连锁：计划中 CoT 的分析

BriefGPT - AI 论文速递 ·

本文提出了一种基于链式推理的自动提问方法Auto-CoT，能够在多项推理任务中超越手动设计的示例。研究表明，Chain-of-Thought提示显著提升了大型语言模型的推理能力，并通过新框架CoTGenius生成高质量提示。实验结果显示，ChainLM模型在复杂推理问题上表现优异，步骤级辩论方法有效解决了推理中的累积误差。

大型语言模型中的模式感知思维链激励

BriefGPT - AI 论文速递 ·

本文介绍了多种基于链式推理的方法，如Auto-CoT、Iter-CoT和Active-Prompt，旨在提升大型语言模型（LLM）的推理能力和准确性。这些方法在多个推理任务中表现优越，能够有效纠正错误并选择具有挑战性的问题。此外，Verify-and-Edit框架和Chain-of-Knowledge方法也显著改善了模型的推理性能。

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

BriefGPT - AI 论文速递 ·

概率思维树推理（ProbTree）是一种新方法，通过外部知识检索加强链式推理，解决复杂问题中的错误推理步骤。实验证明，该方法在三个复杂问答数据集上优于最先进方法，证明了其有效性。

大型语言模型推理的分而治之

BriefGPT - AI 论文速递 ·