高策 ·

从 vibe coding agent 到后训练，从零开始的实验科学

💡 原文中文，约6800字，阅读约需17分钟。

📝

内容提要

与做Agent的朋友交流后，发现主Agent需维护状态机以追踪环境和行为，但常遇到指令遵从和状态记忆丢失的问题。考虑通过后训练让模型学习状态机描述，以提升决策效率。在开发辅助A股投资的Agent时，发现多轮交互难以处理，需要更好的调试工具。最终通过后训练提升了模型表现，体验了后训练的过程。

🎯

关键要点

主Agent需要维护状态机以追踪环境状态和行为，但常遇到指令遵从和状态记忆丢失的问题。
考虑通过后训练让模型学习状态机描述，以提升决策效率。
在开发辅助A股投资的Agent时，发现多轮交互难以处理，需要更好的调试工具。
使用MoonPalace工具进行调试，能够捕获完整请求信息，帮助定位问题。
缺乏有效的调试工具，尤其是对于多轮交互的Agent，调试过程复杂。
通过vibe coding实现了一个简单的调试器，记录请求信息以便分析。
最初使用ReAct实现Agent，但换用小模型后完成率下降，推理能力不足。
尝试使用SFT进行后训练，发现推理和工具使用的能力互相干扰。
开始尝试RL训练，使用GRPO方法，调整超参数以提高训练效果。
实现NGRPO方法以提高奖励方差，训练效果显著提升。
通过这个实验对后训练过程有了完整的体验，感受到框架的便利性。

❓

延伸问答

主Agent在决策过程中面临哪些主要问题？

主Agent面临指令遵从问题和状态记忆丢失的问题。

后训练如何提升模型的决策效率？

后训练可以让模型学习状态机的形式化描述，从而提升决策效率。

在开发A股投资Agent时遇到了哪些调试挑战？

多轮交互难以处理，缺乏有效的调试工具使得调试过程复杂。

MoonPalace工具的主要功能是什么？

MoonPalace工具能够捕获完整请求信息，帮助定位问题，适合调试Agent。

使用小模型进行推理时遇到了什么问题？

换用小模型后，完成率下降，推理能力不足，尤其在区分港股和A股时。

NGRPO方法在训练中有什么优势？

NGRPO方法通过添加虚拟满分样本来增加奖励方差，从而提升训练效果。

🏷️

标签

Agent A股投资决策效率后训练状态机

➡️

继续阅读

读：为什么 Discord 把实验指标从 50 个砍到 15 个
Discord 将实验指标从约50个减少到15个，提升了真阳性检出率约45%。通过多重比较问题和 BH 校正，发现指标过多导致真实效果难以检测。使用相关性...
AI 范式雷达：《Agent 记忆架构：从 flat retrieval 到 agentic control 的十年演进》
构建长期记忆的AI Agent时，选择合适的记忆架构至关重要。MIT、IBM和Xerox PARC的研究分析了10种Agent记忆系统，发现记忆架构直接影...
理解 Agent 中的 Slash Command：从概念到自定义命令实践 - SharpCJ
Slash Command 是一种以斜杠开头的命令输入，用于在 Agent 系统中触发特定操作。它通过解析命令名和参数直接执行逻辑，提高了操作的效率和准确...
基于 Amazon ECS Fargate 和 Graviton 构建企业级多租户 AI Agent 平台：OpenClaw + Hermes 双 Agent 实践
本文介绍了基于Amazon ECS Fargate和Graviton构建的企业级多租户AI Agent平台，结合OpenClaw和Hermes两个开源Ag...
巴黎一周
作者回忆了2014年在巴黎的旅行，描述了与同学游览国庆阅兵式、塞纳河景点和埃菲尔铁塔烟花秀的经历。尽管旅途劳累，作者仍感受到巴黎的魅力，最终意识到自己更喜...
Claude Cowork到7月5日前5小时使用限额翻倍但是！周总限额是完全不变的
A社宣布将Claude Cowork的5小时使用限额翻倍，活动至7月5日结束，旨在吸引更多办公用户。尽管周限额保持不变，用户可能更易触发周限额，引发抱怨。...