小红花·文摘

开源人工智能编程代理，灵活的代码辅助工具 | 开源日报 No.851

开源服务指南 ·

MiroThinker - 一个支持工具增强推理的开源搜索代理，适用于超长文档的检索

云原生 ·

本研究探讨了强化学习在复杂推理搜索代理训练中的最佳设计，发现格式化奖励显著提升性能，而中间检索奖励影响有限。LLM的规模和初始化方式对结果有重要影响，搜索引擎的选择对训练动态和推理稳健性至关重要。这些发现为LLM搜索代理的应用提供了指导。

关于推理搜索交错LLM代理的强化学习实证研究

BriefGPT - AI 论文速递 ·

本文介绍了设计搜索代理的成功步骤，通过机器学习元策略迭代查询精细化。文章提出了一种新颖的方法，使用机器阅读辅助挑选查询结果的精炼术语，使代理能够对查询和搜索结果进行细粒度和透明的控制。通过自主学习和强化学习代理，实现了交互式搜索策略的学习。搜索代理使用传统的BM25排名函数和离散筛选操作，达到了与神经方法相当的检索和答案质量性能。

通过贝叶斯优化改进 Azure 认知搜索的搜索相关性

BriefGPT - AI 论文速递 ·

本文介绍了使用机器学习元策略设计搜索代理的成功步骤，代理能够对查询和搜索结果进行细粒度和透明的控制，达到与最新的神经方法相当的检索和答案质量性能。

利用 AI 副驾驶员解决复杂搜索任务

BriefGPT - AI 论文速递 ·