No Headback ·

Harness or not harness, it is a question

💡 原文中文，约7800字，阅读约需19分钟。

📝

内容提要

2026年，'harness engineering'迅速流行，指为AI模型提供约束和支持的基础设施，强调人类在AI开发中的重要性。成功案例如Stripe的Minions和OpenAI的Codex展示了其有效性，但缺乏高质量测试和基础设施则无法发挥作用。最终，AI可以编写代码，但'写什么'和'对不对'仍需人类决策。

🎯

关键要点

2026年，'harness engineering'迅速流行，强调人类在AI开发中的重要性。
Harness是为AI模型提供约束和支持的基础设施，类似于马具的作用。
Stripe的Minions和OpenAI的Codex是成功的案例，展示了harness的有效性。
缺乏高质量测试和基础设施会导致harness无法发挥作用。
AI可以编写代码，但'写什么'和'对不对'仍需人类决策。
完整的harness需要多个组件，包括文档组织、测试设计、可观测性等。
AGENTS.md的设计应尽量简短，以避免信息过载和腐烂。
AI写代码是否需要TDD存在争议，关键在于测试选择而非流程。
Stripe的CI系统通过三层反馈体系实现高效测试。
Anthropic的GAN式Harness通过分离生成器和评估器来提高代码质量。
harness engineering不是银弹，需依赖已有的测试资产和基础设施。
人类在harness工程中仍然扮演重要角色，负责设计约束和审查结果。

🔎

延伸解读

Harness Engineering的核心价值

Harness engineering强调人类在AI开发中的重要性，尤其是在设计约束和审查结果方面。成功的案例如Stripe和OpenAI表明，良好的基础设施和高质量的测试是实现AI潜力的关键。没有这些支持，AI的输出可能无法满足实际需求。

测试覆盖率的重要性

文章指出，成功的harness依赖于已有的高覆盖率测试套件。对于测试覆盖率低的项目，首先需要建立基础设施，才能有效利用harness。否则，harness可能无法发挥其应有的作用，甚至可能导致更多问题。

人类角色的转变

尽管harness engineering看似实现了自动化，但人类的角色并没有消失，而是转变为设计约束和审查结果。人类在AI开发中的参与仍然至关重要，确保AI的输出符合预期的质量和方向。

❓

延伸问答

什么是harness engineering？

Harness engineering是为AI模型提供约束和支持的基础设施，强调人类在AI开发中的重要性。

Stripe的Minions项目有什么成功之处？

Stripe的Minions项目是完全自主的coding agent，每周合并超过1300个PR，展示了harness的有效性。

harness的完整组件包括哪些？

一个完整的harness需要文档组织、测试设计、可观测性、架构约束等多个组件。

AI写代码是否需要测试驱动开发（TDD）？

AI写代码是否需要TDD存在争议，关键在于测试选择而非流程。

Anthropic的GAN式Harness有什么创新？

Anthropic的GAN式Harness通过分离生成器和评估器来提高代码质量，解决了自我评价失真的问题。

harness engineering的局限性是什么？

harness engineering不是银弹，需依赖已有的测试资产和基础设施，缺乏这些将无法发挥作用。

🏷️