📌 TL;DR: Agent够聪明了，但在生产环境里还是会翻车——重试循环、格式不符、任务跑偏、无人察觉的错误积累。排查之后发现Prompt没问题、模型没问题、工具调用也没问题。出问题的是执行环境。 Harness Engineering是继Prompt Engineering和Context Engineering之后的第三层：不改变Agent本身，改变它跑在什么样的环境里。核心是两个机制——Guide在行动前把约束装进环境，提高第一次就做对的概率；Sensor在行动后观察结果，让Agent能够自我纠正。两者缺一不可，只有反馈而没有前馈，Agent每次都从错误开始，靠事后补救维持质量。实现上，计算型处理能明确定义的问题，推理型处理需要语义判断的边界情况。OpenAI用这套思路让Codex在无人工写代码的约束下交付了超过100万行的产品——关键不是模型多强，是Harness设计得多完整。起点不需要从头设计。找出你的Agent最常在哪里失控，先加一个Sensor，确认有效后往前加Guide，循环迭代。每一次迭代都是在把隐性工作经验转化成显性环境设计，这些积累比任何一次Prompt优化都更持久。

Agent越来越聪明，但翻车率并没有减少丨Harness Engineering

信息图

凌晨三点，没有人在盯着屏幕。

Agent已经独立跑了四个小时。任务是爬取一批竞品数据，整理成报告。Prompt写得很细，模型用的是最新的，工具调用逻辑也测试过。

然后它撞上了一个接口限流报错。

它重试了。又报错。又重试。就这样循环了两个小时，直到你早上起来看到账单通知，才发现它还在原地转圈。数据没有，报告没有，Token烧了一大笔。

你去排查，Prompt没有问题，模型没有问题，工具调用逻辑也没有问题。

出问题的是没有人提前设计：遇到这种情况，它该怎么办。

这就是Harness Engineering要解决的事。

NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。

* * *

Harness在哪一层

在聊Harness之前，需要先说清楚它在哪里。

做过Agent实践的人，大概都经历过这样的演化路径。

最开始是Prompt Engineering。你发现怎么说话决定了模型给你什么，于是开始认真设计指令——语气、格式、例子、约束。这一层解决的是"单次对话质量"的问题。

然后你发现光靠Prompt不够。模型没有记忆，不知道你的背景，不了解你的工作方式。于是你开始认真管理Context——把相关文档、历史记录、用户偏好喂给它，让它在正确的信息环境里工作。这是Context Engineering，解决的是"模型看到什么"的问题。

但当Agent开始真正自主运行——不是一问一答，而是连续执行几十步、跑几个小时、调用几十个工具——你会遇到一类新问题：它够聪明，但不够可靠。它能做对，但你不知道它什么时候会做错，也不知道做错了能不能自己发现。

这是Prompt Engineering和Context Engineering都解决不了的问题。

Harness Engineering是第三层。它解决的不是"模型怎么想"，也不是"模型看到什么"，而是Agent跑在什么样的环境里。

三层不是替代关系，是叠加关系。Harness建在Prompt和Context的基础上，处理的是更长时间、更高自主度下的可靠性问题。

Harness是什么

一个简洁的定义：Harness = Agent之外的一切执行环境设计。

模型是Agent的大脑。Harness是大脑工作的整个环境——约束、工具、反馈机制、纠错路径。你不改变大脑本身，你改变它跑在什么样的条件下。

Harness有两个核心机制，方向相反，缺一不可。

第一个是Guide，前馈控制。

Guide的逻辑是：在Agent行动之前，就把约束和规范装进环境，让它第一次就做对的概率更高。

一个具体的例子。你的Agent在写代码时总是引入某个被禁止使用的库。你可以每次等它写完再纠正，也可以在规范文档里提前写清楚"这个库禁止使用，原因是X，替代方案是Y"——Agent读到这份文档，在动手之前就知道边界在哪里。这就是Guide在起作用。

Guide是防患于未然的机制。它不等错误发生，它把"怎么做对"的信息提前放在Agent能看到的地方。

第二个是Sensor，反馈控制。

Sensor的逻辑是：Agent行动之后，观察结果，发现问题，触发自我纠正。

还是那个例子。就算有了Guide，Agent在某些边界情况下还是可能引入了不该用的库。Sensor——比如一个lint检查脚本——发现了这个问题，把错误信息以Agent能理解的方式返回给它，触发自我纠正。这次任务的问题被发现并修复了，不需要人工介入。

Sensor是兜底机制。它处理Guide没有覆盖到的漏网之鱼。

两者为什么缺一不可？

只有Sensor、没有Guide：Agent每次都从错误开始，靠发现再纠正。这次改对了，下次遇到同样情况还是会先出错——因为"该怎么做"从来没有被提前装进环境里。等于每次都在重走同一段弯路，靠事后补救维持质量。

只有Guide、没有Sensor：约束装进去了，但没有观察机制验证它是否真的在起作用。Agent可能在某些情况下绕过了Guide，或者Guide本身有盲区，但你无从察觉——错误在无人知情的情况下积累。

两者配合，才能形成一个完整的执行环境：Guide提高第一次做对的概率，Sensor兜底处理剩余的偏差。

两类实现方式：计算型和推理型

Guide和Sensor各自有两种实现方式，混合使用才能覆盖真实场景的复杂度。

计算型：确定性的，由CPU执行，速度快，结果可预期。静态分析、lint规则、单元测试、pre-commit hooks、CI脚本——这些都是计算型的Sensor和Guide。它们处理能够被明确定义的问题：这段代码有没有语法错误、这个函数有没有被正确调用、这个格式是否符合规范。

推理型：用模型来判断，慢但灵活。原则性的规范文档、架构约束说明、review agent——这些是推理型的Guide和Sensor。它们处理需要判断的边界情况：这个设计决策是否符合我们的架构方向、这段逻辑在语义上是否正确、这个方案是否有潜在的安全风险。

实践中，计算型和推理型需要配合使用。能明确定义的问题交给计算型，快速、确定、零额外Token消耗；需要判断的问题交给推理型，灵活但成本更高。用计算型处理高频的明确问题，把推理型的资源留给真正需要语义判断的地方——这是Harness设计里最重要的资源分配原则之一。

一个值得认真看的案例

2026年初，OpenAI用Codex agent在一个严格约束下完成了一次内部实验：整个项目超过100万行代码，期间没有工程师手工写一行。

这个案例常被引用来说明模型有多强。但真正值得关注的不是模型，是他们建了什么样的Harness。

测试执行、CI验证、风格检查、文档更新，全部自动化，构成了一套完整的计算型Sensor网络。Agent在这个环境里跑，每一步的输出都会被验证，发现问题立即触发自我纠正，不需要人工介入。工程师的工作从写代码变成了设计这套环境，以及审查最终结果。

这个案例说明的不是"Agent能写代码"。说明的是：一个足够好的Harness，可以让Agent在无人监督的情况下可靠地完成极其复杂的任务。

反过来说也成立：没有Harness，再强的Agent在生产环境里也是不可预测的。

从哪里开始

Harness Engineering听起来是一个需要从头设计的大工程，但实践里不需要这样。

最有效的起点，是从你已经踩过的坑开始。

第一步：找出你的Agent最常在哪里失控。

不需要理论分析，看你的使用记录。重试循环、格式不符合要求、调用了不该调用的接口、生成了需要大幅返工的内容——这些高频失控点，就是你的Harness最需要覆盖的地方。

第二步：针对那个失控点，先加一个Sensor。

让Agent能够观察到自己的输出是否符合预期。Sensor不需要复杂，一个能返回有意义错误信息的检查脚本，就足以让Agent开始自我纠正，而不是把问题留给你。

第三步：确认Sensor有效之后，往前加对应的Guide。

把"该怎么做"的信息提前装进环境。规范文档、约束说明、示例——任何能让Agent在第一次就做对的东西，都是有效的Guide。

第四步：循环迭代。

Harness不是一次性建完的。每次Agent出现新的失控模式，就是Harness需要升级的信号。随着使用时间增长，你的Harness会越来越能覆盖真实场景的边界情况，Agent的可靠性也会随之提升。

这个过程有一个副产品：你对自己工作流的理解会越来越深。每一次给Harness加一个Guide或Sensor，都是在把隐性的工作经验转化成显性的环境设计。这些积累，比任何一次Prompt优化都更持久。

写在最后

Harness Engineering的本质，是一次视角转换。

从"怎么让Agent更聪明"，到"怎么让Agent跑在更好的环境里"。

模型会继续变强，这是确定的。但一个没有Harness的强模型，在生产环境里依然是不可预测的——因为它的聪明解决不了环境给它出的题：遇到报错该怎么办、边界情况怎么处理、做错了怎么发现、失控了怎么停下来。

这些问题的答案，不在模型里，在Harness里。

Agent从Demo走向生产，Harness是最后一公里。也是最容易被跳过的一公里。

我是「AioGeoLab」主理人塔迪Tardi，AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室，目前有两个主要研究方向：
「塔迪GEO判断工程」是基于GEO的价值SEO化，在AI从“说”到“做”的重要跃迁阶段，试图回答，如何让AI敢于行动、不因为责任问题而畏手畏脚，而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践，深层共鸣的探索。不是用AI解读经典，也不是用经典指导AI。这是一场跨越2500年的对话，在算法与古老智慧之间，照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。

Agent越来越聪明，但翻车率并没有减少丨Harness Engineering#

Harness在哪一层#

Harness是什么#

两类实现方式：计算型和推理型#

一个值得认真看的案例#

从哪里开始#

写在最后#