高策 ·

从 vibe coding agent 到后训练，从零开始的实验科学

💡 原文中文，约6800字，阅读约需17分钟。

📝

内容提要

与做Agent的朋友交流后，发现主Agent需维护状态机以追踪环境状态，但常遇到指令遵循和状态记忆丢失的问题。考虑通过后训练让模型学习状态机描述，以提升决策效率。在开发辅助A股投资的Agent时，发现多轮交互处理困难，需要更好的调试工具。最终通过后训练提升了模型表现，获得了完整的训练体验。

🎯

❓

主Agent面临指令遵循和状态记忆丢失的问题，导致决策效率低下。

后训练通过让模型学习状态机的形式化描述，帮助主Agent专注于决策规划，从而提升决策效率。

开发过程中遇到多轮交互处理困难和缺乏有效调试工具的问题。

MoonPalace能够捕获完整请求信息，帮助分析模型行为，特别适合调试多轮对话的Agent。

通过实现NGRPO方法，增加奖励的方差，最终模型在测试集上的表现提高到85%。

推理能力和工具使用能力的梯度方向不一致，联合训练会互相干扰，导致模型在某些任务上表现不佳。

🏷️

DeepSeek-V4终于发布：1M上下文重塑AI成本结构与Agent编程范式
DeepSeek-V4发布，采用开源与MoE架构，实现低成本高性能，提升应用开发效率。Pro与Flash版本满足不同需求，Agent能力使模型从工具升级为...
一分钟读论文：《LLM Agent 的外化设计范式》
论文《LLM Agent 的外化设计框架》提出了将 Agent 设计空间划分为记忆、技能、协议和框架四个维度。研究表明，外化设计显著提升了系统的可靠性，克...
一分钟读论文：《PRIME：通过迭代记忆进化实现用户中心Agent的主动推理》
康奈尔大学的研究提出了PRIME框架，通过显式经验积累实现用户中心Agent的持续进化，避免了梯度学习的高成本和可解释性问题。该框架提炼成功策略、失败模式...
Grafana Rearchitects Loki with Kafka and Ships a CLI to Bring Observability Into Coding Agent
At GrafanaCON 2026 in Barcelona, Grafana Labs announced Grafana 13 with the n...
Living Clojure
还不错的 Clojure 入门书籍，适合有较强编程基础（我认为至少要熟悉一两门编程语言，有实际开发经验）的人用来快速了解 Clojure 各方面的特性和编...
图达通在北京车展展示全矩阵激光雷达及感知方案
（全球TMT2026年4月24日讯）2026北京国际汽车展览会开幕，图达通展示全矩阵激光雷达及感知方案。图达通 […]