量子位 ·

突破Agent长程推理效率瓶颈！MIT&NUS联合推出强化学习新训练方法

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

MIT与新加坡国立大学联合推出MEM1框架，提升AI智能体的长程推理效率，速度提高3.5倍，显存减少至1/4。该框架通过强化学习使智能体自主整合记忆与推理，有效解决信息过载问题，展现出强大的泛化能力。

🎯

❓

MEM1框架的主要创新在于通过强化学习让模型自主将记忆与推理统一，避免上下文无限增长。

MEM1模型的推理速度达到传统14B模型的3.5倍，显存减少至1/4。

MEM1通过强化学习使智能体自主整合记忆与推理，从而有效解决信息过载问题。

MEM1在多目标问答任务中展现出强大的泛化能力，超越了更大模型及外部记忆模块的模型。

MEM1采用端到端的基于结果奖励的强化学习训练方式，并引入特殊的注意力掩码机制。

MEM1通过引入内部状态<IS>，使得上下文不会随交互轮次增加而膨胀，从而控制上下文长度。

🏷️

Frontier Tuning：教AI像您一样工作
微软在Build大会上推出了Frontier Tuning，这是一种通过强化学习使AI适应企业数据和流程的新方法。该系统在合规边界内运行，能够根据企业的独...
刚刚，Windows「梦中神机」来了，把你的 PC 变成 Agent 工位
微软与OpenAI的合作关系逐渐疏远。在Build 2026发布会上，微软展示了自研的MAI模型系列，涵盖推理、代码、图像和语音等领域，强调多模型选择的重...
微软首款高级推理人工智能问世
微软在2026年Build大会上发布了多款新AI模型，旗舰模型MAI-Thinking-1是其自主开发的重要进展，表现优异，基于干净数据训练。此外，还推出...
咬文嚼字
作者在阅读《米德尔马契》时感到困难，尤其是对翻译的理解产生困惑。通过对比不同译本，他发现语言的逻辑和因果关系让人感到别扭，特别是“如果/要是”的翻译不够准...
为何写作
写作的意义在于记录、思考和交流。它使人们能够与过去和未来的自己对话，反思变化，促进思考，清晰表达观点。真实的文字更能与他人产生共鸣。尽管AI可以生成文章，...
Presentation: Choosing Your AI Copilot: Maximizing Developer Productivity
Sepehr Khosravi discusses the evolution of developer productivity tools. Eval...