小红花·文摘

挖坑不填兽 ·

本研究质疑大语言模型对最终答案的依赖，提出通过分析中间推理步骤来提高答案准确性，实验验证了该方法在多个模型和数学推理数据集上的有效性。

BriefGPT - AI 论文速递 ·

本研究提出了一种新的循环验证器设计，通过在每个推理步骤中提供中间反馈，解决了现有自动定理证明方法的高计算成本和反馈稀疏问题，从而提高了推理的准确性和效率。

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法RELAY，旨在解决生成长且准确的思维链轨迹的挑战。通过对齐推理步骤与循环迭代，并应用中间监督，显著提升了自回归模型的性能，能够为复杂问题生成准确的推理链。

BriefGPT - AI 论文速递 ·

本文提出了首个针对无文本图的思维链提示学习框架GCoT，通过分解推理步骤实现图模型的逐步学习。实验结果表明，GCoT在八个公共数据集上优于现有方法，显示出其潜在影响力。

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的监督框架，通过结果优化引导大型语言模型在复杂编程任务中的推理步骤，从而显著提升模型的准确性和效率。

BriefGPT - AI 论文速递 ·

本文提出了一种名为Step-DPO的方法，通过优化推理步骤而非整体答案，显著提高大型语言模型在数学推理任务中的准确性。实验结果显示，模型在MATH和GSM8K测试集上表现优异，超越多种闭源模型。此外，研究探讨了训练与推理的权衡，为提升模型性能提供了新见解。

BriefGPT - AI 论文速递 ·

作者发现大语言模型（LLM）无法解决需要更长推理步骤的问题，如Wordle和细胞自动机。LLM的注意力机制无法动态地重置上下文，导致目标漂移。作者建议通过改进架构和添加外部记忆来提高LLM的可靠性。然而，LLM仍然无法完全模拟人类的推理能力。

程序师 ·

宝玉的分享 ·

宝玉的分享 ·

研究人员发现大型语言模型（LLMs）在处理个别推理步骤时表现良好，但在整个推理链上保持一致性方面存在困难。为了解决这个问题，他们引入了“规划标记”作为模型的指南，并通过微调模型的参数来实现。他们的方法在三个数学问题数据集上进行了评估，相对于基准方法，取得了显著的准确性提升。

BriefGPT - AI 论文速递 ·