从 vibe coding agent 到后训练,从零开始的实验科学

💡 原文中文,约6800字,阅读约需17分钟。
📝

内容提要

与做Agent的朋友交流后,发现主Agent需维护状态机以追踪环境和行为,但常遇到指令遵从和状态记忆丢失的问题。考虑通过后训练让模型学习状态机描述,以提升决策效率。在开发辅助A股投资的Agent时,发现多轮交互难以处理,需要更好的调试工具。最终通过后训练提升了模型表现,体验了后训练的过程。

🎯

关键要点

  • 主Agent需要维护状态机以追踪环境状态和行为,但常遇到指令遵从和状态记忆丢失的问题。
  • 考虑通过后训练让模型学习状态机描述,以提升决策效率。
  • 在开发辅助A股投资的Agent时,发现多轮交互难以处理,需要更好的调试工具。
  • 使用MoonPalace工具进行调试,能够捕获完整请求信息,帮助定位问题。
  • 缺乏有效的调试工具,尤其是对于多轮交互的Agent,调试过程复杂。
  • 通过vibe coding实现了一个简单的调试器,记录请求信息以便分析。
  • 最初使用ReAct实现Agent,但换用小模型后完成率下降,推理能力不足。
  • 尝试使用SFT进行后训练,发现推理和工具使用的能力互相干扰。
  • 开始尝试RL训练,使用GRPO方法,调整超参数以提高训练效果。
  • 实现NGRPO方法以提高奖励方差,训练效果显著提升。
  • 通过这个实验对后训练过程有了完整的体验,感受到框架的便利性。

延伸问答

主Agent在决策过程中面临哪些主要问题?

主Agent面临指令遵从问题和状态记忆丢失的问题。

后训练如何提升模型的决策效率?

后训练可以让模型学习状态机的形式化描述,从而提升决策效率。

在开发A股投资Agent时遇到了哪些调试挑战?

多轮交互难以处理,缺乏有效的调试工具使得调试过程复杂。

MoonPalace工具的主要功能是什么?

MoonPalace工具能够捕获完整请求信息,帮助定位问题,适合调试Agent。

使用小模型进行推理时遇到了什么问题?

换用小模型后,完成率下降,推理能力不足,尤其在区分港股和A股时。

NGRPO方法在训练中有什么优势?

NGRPO方法通过添加虚拟满分样本来增加奖励方差,从而提升训练效果。

➡️

继续阅读