小红花·文摘

数据集汇总丨AI Agent 评测数据集，Microsoft/北大/港大/上海交大等发布 10 个数据集，从长程记忆到真实环境任务执行全覆盖

HyperAI超神经 ·

人工智能论文评审：链式思维提示激发大型语言模型的推理能力

freeCodeCamp.org ·

谷歌的代理开发工具包是什么？架构巡礼

The New Stack ·

R-HORIZON：探索长程推理边界，复旦NLP&美团LongCat联合提出LRMs能力评测新框架

美团技术团队 ·

如何通过知识图谱解决5个常见的检索增强生成（RAG）系统失效问题

freeCodeCamp.org ·

《Agentic Design Patterns：构建智能系统的实战指南》- 第一章提示链

实时互动网 ·

中科院与清华大学等提出的SE-Agent框架突破了Claude-4的编程限制，提升了多步推理能力，成功率提高20.6%。该框架通过轨迹协同进化优化解决方案，刷新了开源框架的性能记录，展现出智能体自我改进的潜力。

突破Claude-4编程上限！自进化Agent框架拿下新SOTA，已开源

量子位 ·

阿里推出的WebDancer是一款具备多步推理和自主决策能力的信息检索智能体，凭借创新的数据合成和ReAct框架，在复杂信息检索任务中表现出色，展现出强大的泛化能力。未来将集成更多工具，扩展任务范围，推动智能体发展。

阿里智能体多轮推理超越GPT-4o，开源模型也能做Deep Research

量子位 ·

大模型在法律推理中的应用面临挑战，最新的LEXam基准数据集旨在评估其能力。研究表明，现有LLM在复杂法律问题，尤其是多步推理方面表现不佳。LEXam提供高质量法律考试题目，帮助深入理解LLM的能力缺陷，并引入“LLM-as-a-Judge”模式以提升评估的透明性和可靠性。

大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

量子位 ·

本研究提出了AdvKT框架，旨在解决知识追踪模型在多步推理中的错误累积和数据稀疏性问题。通过对抗学习和数据增强，显著提升了智能辅导系统的推荐模型性能。

AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing

BriefGPT - AI 论文速递 ·

全新CoD颠覆推理范式，准确率接近但token消耗成倍降低

机器之心 ·

本研究提出了一种双重逆向链推理框架（DRCR），用于隐性情感分析，解决了捕捉微妙情感的难题。该框架结合对比推理和多步推理，显著提高了情感分类的准确性，并在多个模型上实现了先进性能。

Application of Multiple Chain-of-Thought in Contrastive Reasoning for Implicit Sentiment Analysis

BriefGPT - AI 论文速递 ·

本研究提出了DocPuzzle基准，用于评估大型语言模型在长篇上下文中的推理能力。基准包含100个需要多步推理的专家级QA问题。评估结果表明，慢思维推理模型优于一般指令模型，而蒸馏推理模型与教师模型之间存在显著差距。

DocPuzzle：评估现实长篇上下文推理能力的过程意识基准

BriefGPT - AI 论文速递 ·

本研究提出了一种名为FastMCTS的新采样策略，旨在解决合成多步推理数据中的低效和不平衡问题。实验结果表明，FastMCTS生成的正确推理路径比拒绝采样方法增加超过30%，并提升了模型性能3.9%。

FastMCTS: A Simple Sampling Strategy for Data Synthesis

BriefGPT - AI 论文速递 ·

本研究提出了大记忆模型（LM2），通过引入辅助记忆模块，克服了标准Transformer在多步推理和长上下文整合方面的局限性。实验结果表明，该模型在多跳推理和大上下文问答中表现优异。

Large Memory Model (LM2)

BriefGPT - AI 论文速递 ·

通过扭曲序列蒙特卡洛实现数学问题的逐步推理

Apple Machine Learning Research ·

本研究探讨了视觉语言模型（VLMs）在多步推理任务中的不足，并提出了一种评估其视觉推理能力的框架。研究表明，显式的图像到文本转换对任务的泛化能力至关重要。

Generalizing Visual Reasoning from Simple to Hard: Can We Mitigate Modality Imbalance in Visual Language Models?

BriefGPT - AI 论文速递 ·

本研究提出了AR-MCTS框架，结合主动检索与蒙特卡洛树搜索，以提升多步多模态推理的多样性和可靠性。

Progressive Multimodal Reasoning through Active Retrieval

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的进展与挑战，提出了多种提升性能的方法，如使用小型模型校正LLM输出、检索增强生成（RAG）和跨模型控制（CMC）。研究表明，这些技术显著提升了LLMs在多步推理和复杂任务中的表现，展现出与先进模型竞争的潜力。

马特ryoshka：利用LLM学习驱动黑箱LLM

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）在自动规划中的应用，发现其自主生成计划的能力有限。通过引入LLM + P框架和RAP推理框架，研究表明LLMs在启发式模式下能改善其他智能计划器的搜索过程。此外，提出了LLM-模块化框架，结合外部验证器以提高规划和推理的准确性，解决了LLMs在多步推理中的不一致性问题。

语言模型非短视生成用于推理和规划

BriefGPT - AI 论文速递 ·

数据集汇总丨AI Agent 评测数据集，Microsoft/北大/港大/上海交大等发布 10 个数据集，从长程记忆到真实环境任务执行全覆盖

人工智能论文评审：链式思维提示激发大型语言模型的推理能力

谷歌的代理开发工具包是什么？架构巡礼

R-HORIZON：探索长程推理边界，复旦NLP&美团LongCat联合提出LRMs能力评测新框架

如何通过知识图谱解决5个常见的检索增强生成（RAG）系统失效问题

《Agentic Design Patterns：构建智能系统的实战指南》- 第一章 提示链

突破Claude-4编程上限！自进化Agent框架拿下新SOTA，已开源

阿里智能体多轮推理超越GPT-4o，开源模型也能做Deep Research

大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing

全新CoD颠覆推理范式，准确率接近但token消耗成倍降低

Application of Multiple Chain-of-Thought in Contrastive Reasoning for Implicit Sentiment Analysis

DocPuzzle：评估现实长篇上下文推理能力的过程意识基准

FastMCTS: A Simple Sampling Strategy for Data Synthesis

Large Memory Model (LM2)

通过扭曲序列蒙特卡洛实现数学问题的逐步推理

Generalizing Visual Reasoning from Simple to Hard: Can We Mitigate Modality Imbalance in Visual Language Models?

Progressive Multimodal Reasoning through Active Retrieval

马特ryoshka：利用LLM学习驱动黑箱LLM

语言模型非短视生成用于推理和规划

《Agentic Design Patterns：构建智能系统的实战指南》- 第一章提示链