No Headback ·

Harness or not harness, it is a question

💡 原文中文，约7800字，阅读约需19分钟。

📝

内容提要

2026年，'harness engineering'迅速流行，指为AI模型提供约束和支持的基础设施，强调人类在AI开发中的重要性。成功案例如Stripe的Minions和OpenAI的Codex展示了其有效性，但缺乏高质量测试和基础设施则无法发挥作用。最终，AI可以编写代码，但'写什么'和'对不对'仍需人类决策。

🎯

关键要点

2026年，'harness engineering'迅速流行，强调人类在AI开发中的重要性。
Harness是为AI模型提供约束和支持的基础设施，类似于马具的作用。
Stripe的Minions和OpenAI的Codex是成功的案例，展示了harness的有效性。
缺乏高质量测试和基础设施会导致harness无法发挥作用。
AI可以编写代码，但'写什么'和'对不对'仍需人类决策。
完整的harness需要多个组件，包括文档组织、测试设计、可观测性等。
AGENTS.md的设计应尽量简短，以避免信息过载和腐烂。
AI写代码是否需要TDD存在争议，关键在于测试选择而非流程。
Stripe的CI系统通过三层反馈体系实现高效测试。
Anthropic的GAN式Harness通过分离生成器和评估器来提高代码质量。
harness engineering不是银弹，需依赖已有的测试资产和基础设施。
人类在harness工程中仍然扮演重要角色，负责设计约束和审查结果。

❓

延伸问答

什么是harness engineering，它的主要作用是什么？

Harness engineering是为AI模型提供约束和支持的基础设施，强调人类在AI开发中的重要性，类似于马具的作用。

Stripe的Minions和OpenAI的Codex是如何展示harness的有效性的？

Stripe的Minions是完全自主的coding agent，每周合并超过1300个PR，而OpenAI的Codex项目通过百万行代码实现了零手写，展示了harness的成功应用。

harness工程中人类的角色是什么？

人类在harness工程中负责设计约束和审查结果，确保AI的输出符合预期。

harness的完整组件包括哪些？

一个完整的harness需要文档组织、测试设计、可观测性、架构约束、执行隔离、工具裁剪等多个组件。

AI写代码是否需要测试驱动开发（TDD）？

关于AI写代码是否需要TDD存在争议，关键在于测试选择而非流程，测试应由人类或独立agent提供。

harness engineering的局限性是什么？

harness engineering不是银弹，它依赖于已有的测试资产和基础设施，缺乏这些基础设施时，harness无法发挥作用。

🏷️

继续阅读

GitHub将使用您的Copilot数据训练AI模型，并与微软共享
该平台声明，相关权限不适用于第三方AI模型提供商或独立服务商。若聘请服务提供商协助模型训练，需遵循合同义务，仅为GitHub提供服务。
为什么OpenAI终止了Sora
迪士尼与OpenAI的合作协议破裂，导致收入受损。迪士尼曾承诺投资10亿美元并成为OpenAI的主要客户，但在合作项目进行不到一小时后，意外得知该应用将被停用。
频繁飞行者必备应用
我将主屏幕从四个半组织改为两个，常用Spotlight。主屏幕上方显示天气，下方有16个常用应用，图标变大，更加美观。
Anthropic的疯狂三月：14次以上的发布、5次故障，以及一次意外的Claude Mythos泄露
MCP正在广泛应用，但在身份验证和服务器管理等生产准备方面仍面临挑战。开发者所需工具的跟进能力至关重要。
Oppo再次推出最佳折叠手机
折痕对潜在折叠手机买家仍然重要，但几年前的折痕表现已足够好，使用一段时间后通常会忽略其存在。Oppo进一步缩短了适应期，可能吸引更多消费者购买折叠手机。
[开源] cargo-worktree - 配合git worktree的cargo 编译工具
在使用git worktree和多个agent开发Rust项目时，Cargo的默认行为导致构建目录共享，造成构建互相覆盖和不稳定。为了解决这个问题，发布了...