从 vibe coding agent 到后训练,从零开始的实验科学

💡 原文中文,约6800字,阅读约需17分钟。
📝

内容提要

与做Agent的朋友交流后,发现主Agent需维护状态机以追踪环境状态,但常遇到指令遵循和状态记忆丢失的问题。考虑通过后训练让模型学习状态机描述,以提升决策效率。在开发辅助A股投资的Agent时,发现多轮交互处理困难,需要更好的调试工具。最终通过后训练提升了模型表现,获得了完整的训练体验。

🎯

关键要点

  • 主Agent需要维护状态机以追踪环境状态和行为,但常遇到指令遵循和状态记忆丢失的问题。
  • 考虑通过后训练让模型学习状态机的形式化描述,以提升决策效率。
  • 在开发辅助A股投资的Agent时,发现多轮交互处理困难,需要更好的调试工具。
  • 调试工具MoonPalace能够捕获完整请求信息,帮助分析模型行为。
  • 缺乏有效的调试工具,尤其是对于多轮对话的Agent。
  • 通过后训练提升了模型表现,但推理能力和工具使用能力之间存在矛盾。
  • 尝试使用RL训练模型,发现reward标准差低,模型不学习。
  • 实现NGRPO方法来提高训练效果,最终模型在测试集上的表现提高到85%。
  • 对后训练过程有了完整的体验,感受到框架的便利性和实验的乐趣。

延伸问答

主Agent在决策过程中面临哪些主要问题?

主Agent面临指令遵循和状态记忆丢失的问题,导致决策效率低下。

后训练如何提升模型的决策效率?

后训练通过让模型学习状态机的形式化描述,帮助主Agent专注于决策规划,从而提升决策效率。

在开发A股投资Agent时遇到了哪些挑战?

开发过程中遇到多轮交互处理困难和缺乏有效调试工具的问题。

MoonPalace调试工具的主要功能是什么?

MoonPalace能够捕获完整请求信息,帮助分析模型行为,特别适合调试多轮对话的Agent。

如何提高模型在测试集上的表现?

通过实现NGRPO方法,增加奖励的方差,最终模型在测试集上的表现提高到85%。

在训练过程中,推理能力和工具使用能力之间存在哪些矛盾?

推理能力和工具使用能力的梯度方向不一致,联合训练会互相干扰,导致模型在某些任务上表现不佳。

➡️

继续阅读