量子位 ·

斯坦福新论文：微调已死，自主上下文当立

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

斯坦福大学的研究指出，微调已不再有效，提出了智能体上下文工程ACE。ACE通过自主上下文进化，无需调整模型权重，显著提升智能体和财务分析的性能，超越传统方法，降低适应成本和延迟。

🎯

❓

智能体上下文工程ACE是一种新方法，通过自主上下文进化来提升智能体性能，无需调整模型权重。

ACE通过将上下文视为不断演化的操作手册，解决了简洁偏置和上下文崩溃的问题。

ACE框架包括生成器、反思器和整理器，分别负责生成推理轨迹、提炼见解和整合上下文更新。

在智能体测试中，ACE相比传统方法如ReAct+ICL和ReAct+GEPA分别领先12.3%和11.9%。

在财务分析中，ACE在离线环境下以平均10.9%的优势超越了ICL、MIPROv2和GEPA。

ACE在AppWorld的离线自适应任务中，将自适应延迟降低了82.3%，尝试次数减少了75.1%。

🏷️

国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
生产就绪AI的九项检查清单
文章讨论了将AI原型转变为可靠生产系统的过程，强调构建“AI平台切片”的重要性。平台团队需解决基础设施、安全性和可观察性等问题，以确保AI服务的可靠性和可...
解读OpenAI与微软的重置：为何AWS可能会占据优势
OpenAI与微软的合作关系经历波折，最近宣布与亚马逊云服务（AWS）建立新合作，允许OpenAI的模型在AWS上运行。这一变化使OpenAI能够在多个云...
Visual Studio 2026 18.6 Insiders 3 默认启用 TypeScript 7 Beta
Visual Studio 2026 18.6 Insiders 3 默认启用 TypeScript 7 Beta，提升了编译速度和减少了内存使用。大型项...
Anthropic的Claude Security从封闭预览中推出，扫描您的代码库以发现安全漏洞
Anthropic推出了Claude Security，这是一个用于扫描代码库安全漏洞的工具，现已进入Claude Enterprise客户的测试阶段。该...
免费学习最受欢迎的技术技能
Zero To Mastery（ZTM）在4月30日至5月10日提供167门免费课程，涵盖Python、AI工程、数据工程等，适合希望转行的学生。课程更新...