小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
谷歌的代理开发工具包是什么?架构巡礼

谷歌的代理开发工具包(ADK)通过事件驱动架构改变了AI应用的开发方式,支持多步推理和实时反馈。ADK的设计确保可观察性、测试隔离和灵活性,使开发者能够构建复杂的AI系统。

谷歌的代理开发工具包是什么?架构巡礼

The New Stack
The New Stack · 2025-12-15T15:30:10Z
R-HORIZON:探索长程推理边界,复旦NLP&美团LongCat联合提出LRMs能力评测新框架

大型推理模型(LRMs)在长链推理能力上面临挑战,现有评测体系无法有效评估其复杂任务表现。复旦大学与美团推出的R-HORIZON框架通过问题组合方法提升了模型的多步推理能力。评测显示,主流模型在长链推理中性能普遍下降,存在推理长度、反思机制和预算分配等瓶颈。通过强化学习训练,R-HORIZON显著提升了模型推理性能,标志着研究范式的转变。

R-HORIZON:探索长程推理边界,复旦NLP&美团LongCat联合提出LRMs能力评测新框架

美团技术团队
美团技术团队 · 2025-11-28T00:00:00Z
如何通过知识图谱解决5个常见的检索增强生成(RAG)系统失效问题

标准的检索增强生成(RAG)系统在处理复杂问题时常常失效,无法保持上下文关系。本文提出了一种基于知识图谱的解决方案,通过明确的节点和边存储数据,增强系统推理能力,有效应对多步推理、歧义消解和矛盾信息,提高知识系统的可靠性。

如何通过知识图谱解决5个常见的检索增强生成(RAG)系统失效问题

freeCodeCamp.org
freeCodeCamp.org · 2025-11-13T15:20:24Z
《Agentic Design Patterns:构建智能系统的实战指南》- 第一章 提示链

提示链模式通过将复杂任务分解为小的子任务,提升了大语言模型的可靠性与可控性,适用于构建智能体系统,解决多步推理与工具集成问题。

《Agentic Design Patterns:构建智能系统的实战指南》- 第一章 提示链

实时互动网
实时互动网 · 2025-10-16T02:17:09Z

中科院与清华大学等提出的SE-Agent框架突破了Claude-4的编程限制,提升了多步推理能力,成功率提高20.6%。该框架通过轨迹协同进化优化解决方案,刷新了开源框架的性能记录,展现出智能体自我改进的潜力。

突破Claude-4编程上限!自进化Agent框架拿下新SOTA,已开源

量子位
量子位 · 2025-08-19T09:38:07Z

阿里推出的WebDancer是一款具备多步推理和自主决策能力的信息检索智能体,凭借创新的数据合成和ReAct框架,在复杂信息检索任务中表现出色,展现出强大的泛化能力。未来将集成更多工具,扩展任务范围,推动智能体发展。

阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research

量子位
量子位 · 2025-06-06T07:59:00Z

大模型在法律推理中的应用面临挑战,最新的LEXam基准数据集旨在评估其能力。研究表明,现有LLM在复杂法律问题,尤其是多步推理方面表现不佳。LEXam提供高质量法律考试题目,帮助深入理解LLM的能力缺陷,并引入“LLM-as-a-Judge”模式以提升评估的透明性和可靠性。

大模型结构化推理优势难复制到垂直领域!最新法律AI评估标准来了,抱抱脸评测集趋势第一

量子位
量子位 · 2025-06-05T08:20:28Z

本研究提出了AdvKT框架,旨在解决知识追踪模型在多步推理中的错误累积和数据稀疏性问题。通过对抗学习和数据增强,显著提升了智能辅导系统的推荐模型性能。

AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z
全新CoD颠覆推理范式,准确率接近但token消耗成倍降低

Zoom 研究团队提出了 Chain of Draft(CoD)技术框架,以提高大语言模型(LLM)的推理效率。CoD 通过生成简洁且信息密集的输出,显著降低计算资源和延迟,提升推理性能。实验结果显示,CoD 在多步推理任务中的信息密度是传统思维链(CoT)的 14.7 倍,推理延迟和 token 消耗显著减少,适合高频金融交易等应用。

全新CoD颠覆推理范式,准确率接近但token消耗成倍降低

机器之心
机器之心 · 2025-03-10T10:29:59Z

本研究提出了一种双重逆向链推理框架(DRCR),用于隐性情感分析,解决了捕捉微妙情感的难题。该框架结合对比推理和多步推理,显著提高了情感分类的准确性,并在多个模型上实现了先进性能。

Application of Multiple Chain-of-Thought in Contrastive Reasoning for Implicit Sentiment Analysis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究提出了DocPuzzle基准,用于评估大型语言模型在长篇上下文中的推理能力。基准包含100个需要多步推理的专家级QA问题。评估结果表明,慢思维推理模型优于一般指令模型,而蒸馏推理模型与教师模型之间存在显著差距。

DocPuzzle:评估现实长篇上下文推理能力的过程意识基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-25T00:00:00Z

本研究提出了一种名为FastMCTS的新采样策略,旨在解决合成多步推理数据中的低效和不平衡问题。实验结果表明,FastMCTS生成的正确推理路径比拒绝采样方法增加超过30%,并提升了模型性能3.9%。

FastMCTS: A Simple Sampling Strategy for Data Synthesis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了大记忆模型(LM2),通过引入辅助记忆模块,克服了标准Transformer在多步推理和长上下文整合方面的局限性。实验结果表明,该模型在多跳推理和大上下文问答中表现优异。

Large Memory Model (LM2)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-09T00:00:00Z
通过扭曲序列蒙特卡洛实现数学问题的逐步推理

本文提出了一种基于扭曲序列蒙特卡洛(TSMC)的新验证方法,旨在提升大型语言模型(LLMs)的多步推理能力。该方法通过聚焦有前景的候选项,提高采样效率,减少样本需求,并简化训练目标,降低对人工标注的依赖。实验结果显示,该方法在多个数学基准上表现优越。

通过扭曲序列蒙特卡洛实现数学问题的逐步推理

Apple Machine Learning Research
Apple Machine Learning Research · 2025-02-01T00:00:00Z

本研究探讨了视觉语言模型(VLMs)在多步推理任务中的不足,并提出了一种评估其视觉推理能力的框架。研究表明,显式的图像到文本转换对任务的泛化能力至关重要。

Generalizing Visual Reasoning from Simple to Hard: Can We Mitigate Modality Imbalance in Visual Language Models?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z

本研究提出了AR-MCTS框架,结合主动检索与蒙特卡洛树搜索,以提升多步多模态推理的多样性和可靠性。

Progressive Multimodal Reasoning through Active Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

本文探讨了大型语言模型(LLMs)的进展与挑战,提出了多种提升性能的方法,如使用小型模型校正LLM输出、检索增强生成(RAG)和跨模型控制(CMC)。研究表明,这些技术显著提升了LLMs在多步推理和复杂任务中的表现,展现出与先进模型竞争的潜力。

马特ryoshka:利用LLM学习驱动黑箱LLM

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究探讨了大型语言模型(LLMs)在自动规划中的应用,发现其自主生成计划的能力有限。通过引入LLM + P框架和RAP推理框架,研究表明LLMs在启发式模式下能改善其他智能计划器的搜索过程。此外,提出了LLM-模块化框架,结合外部验证器以提高规划和推理的准确性,解决了LLMs在多步推理中的不一致性问题。

语言模型非短视生成用于推理和规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

Ilya Sutskever 在 OpenAI o1 项目中的角色引起了关注。他合著的一篇题为《逐步验证》的论文探讨了提高大型语言模型多步推理能力的方法。研究发现,过程监督比结果监督更有效,并使用人类反馈数据来训练模型。o1 项目的其他贡献者包括 Jason Wei、Shengjia Zhao 和 Ren Hongyu。OpenAI o1 旨在从记忆答案转向记忆推理。

o1基石论文火爆传阅,Ilya仍是关键先生!核心项目清北校友闪光

量子位
量子位 · 2024-09-16T07:19:27Z

本文研究了链式思维(CoT)对大型语言模型(LLMs)多步推理能力的影响,发现即使包含无效推理步骤,模型仍能保持80-90%的性能。提出了知识驱动的思路连贯框架(KD-CoT),旨在改善推理过程并减轻错误传播。此外,文章还探讨了战略推理的现状与未来方向,强调跨学科方法对决策性能的提升。

战略思维链:通过策略引导提高大型语言模型的准确推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码