Harness or not harness, it is a question

💡 原文中文,约7800字,阅读约需19分钟。
📝

内容提要

2026年,'harness engineering'迅速流行,指为AI模型提供约束和支持的基础设施,强调人类在AI开发中的重要性。成功案例如Stripe的Minions和OpenAI的Codex展示了其有效性,但缺乏高质量测试和基础设施则无法发挥作用。最终,AI可以编写代码,但'写什么'和'对不对'仍需人类决策。

🎯

关键要点

  • 2026年,'harness engineering'迅速流行,强调人类在AI开发中的重要性。

  • Harness是为AI模型提供约束和支持的基础设施,类似于马具的作用。

  • Stripe的Minions和OpenAI的Codex是成功的案例,展示了harness的有效性。

  • 缺乏高质量测试和基础设施会导致harness无法发挥作用。

  • AI可以编写代码,但'写什么'和'对不对'仍需人类决策。

  • 完整的harness需要多个组件,包括文档组织、测试设计、可观测性等。

  • AGENTS.md的设计应尽量简短,以避免信息过载和腐烂。

  • AI写代码是否需要TDD存在争议,关键在于测试选择而非流程。

  • Stripe的CI系统通过三层反馈体系实现高效测试。

  • Anthropic的GAN式Harness通过分离生成器和评估器来提高代码质量。

  • harness engineering不是银弹,需依赖已有的测试资产和基础设施。

  • 人类在harness工程中仍然扮演重要角色,负责设计约束和审查结果。

延伸问答

什么是harness engineering,它的主要作用是什么?

Harness engineering是为AI模型提供约束和支持的基础设施,强调人类在AI开发中的重要性,类似于马具的作用。

Stripe的Minions和OpenAI的Codex是如何展示harness的有效性的?

Stripe的Minions是完全自主的coding agent,每周合并超过1300个PR,而OpenAI的Codex项目通过百万行代码实现了零手写,展示了harness的成功应用。

harness工程中人类的角色是什么?

人类在harness工程中负责设计约束和审查结果,确保AI的输出符合预期。

harness的完整组件包括哪些?

一个完整的harness需要文档组织、测试设计、可观测性、架构约束、执行隔离、工具裁剪等多个组件。

AI写代码是否需要测试驱动开发(TDD)?

关于AI写代码是否需要TDD存在争议,关键在于测试选择而非流程,测试应由人类或独立agent提供。

harness engineering的局限性是什么?

harness engineering不是银弹,它依赖于已有的测试资产和基础设施,缺乏这些基础设施时,harness无法发挥作用。

➡️

继续阅读