📌 TL;DR: 判断工程和Harness Engineering解决的不是同一个问题。Harness是执行环境，裁定机制是决策边界——一个管Agent怎么跑，一个管跑到哪里该停。公路和红绿灯，缺一不可。裁定机制的核心是三层结构：可逆低风险的情况进自主层，不可逆或超权限的情况进确认层，绝对禁止的情况硬编码在拒绝层——不经过Agent判断，直接挡在外面。三层边界不是技术团队能独立设计的。"什么对我们来说是不可逆的"这个问题，只有业务侧能回答。落地的起点是一次认真的对齐会议，把在乎什么、容忍什么、绝对不接受什么说清楚。确认层的边界会漂移，漂移是静默的，没有人刻意为之。防止漂移需要定期校准机制——不是依赖人的自觉，而是把检查变成例行动作。没有校准机制的裁定层，是一个会慢慢失忆的系统。

你说「让Agent自己判断」，但判断的边界在哪里？丨裁定机制落地，需要回答这三个问题

信息图

一些读者反馈：判断工程的逻辑我懂了，规则覆盖不了边界情况，需要裁定层。Harness Engineering我也看了，执行环境要搭好，不能只靠调教模型。但看完之后，我还是不知道下一步该做什么。

这个困惑是真实的，也是合理的。前面的文章解决的是"为什么"，这篇解决"怎么做"。

不过在进入裁定机制的具体形态之前，有一个问题值得先说清楚——判断工程和Harness Engineering，到底是什么关系？很多读者把两者混在一起理解，这会让后面的实践更难落地。

NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。

* * *

一个容易混淆的问题先说清楚

Harness Engineering解决的是执行环境的问题。

它的核心逻辑是：与其反复调教Agent的判断力，不如优化它工作的环境。工具怎么接入、状态怎么外部化、失败怎么回滚——这些是环境层面的工程决策。一个好的Harness，让Agent在一个结构良好的容器里运行，行为更可预测，出了问题更容易定位。

判断工程·裁定机制解决的是决策边界的问题。

它的核心逻辑是：执行环境搭好之后，Agent在里面跑，遇到不同情况该怎么决策——哪些情况可以自主完成，哪些情况需要暂停等人确认，哪些情况应该直接拒绝，这条线由谁来划、怎么划。

两者的关系是：Harness是公路，裁定机制是红绿灯。

公路修得再好，没有红绿灯，还是会出事。红绿灯设计得再精密，路面坑坑洼洼，也跑不起来。两者解决的是不同层面的问题，缺一不可，但不能互相替代。

理解了这个区别，再来谈裁定机制的落地，会清晰很多。

裁定机制不是一个开关

很多人对"裁定机制"的第一反应是：给Agent设一个审批节点，重要的事情让人来确认。

这个方向没错，但太粗糙。

如果你把所有不确定的情况都推进审批队列，Agent就变成了一个不停弹窗的系统，你忙着确认，它忙着等待，最后谁都没有效率。如果你把审批环节设得太少，Agent自主跑，出了问题你才发现边界早就被突破了。

裁定机制要解决的，不是"要不要审批"这个二元问题，而是如何把所有可能遇到的情况，分配到正确的决策层里。

这需要一个三层结构。

三层结构：自主、确认、拒绝

第一层：自主执行层

这一层里的情况，Agent可以直接跑，不需要问任何人。

判断标准有两个：可逆，且失败成本低。 操作可以撤销，或者即便做错了，损失在可接受范围内。比如起草一封邮件草稿、整理一份文档摘要、查询一条数据库记录——这类任务就算结果不理想，重来一次代价不大。

自主层的设计原则是：宁可范围小，不要边界模糊。 你明确知道哪些情况属于这一层，比你觉得大部分情况都能自主、但心里没底要安全得多。

第二层：确认层

这一层里的情况，Agent做完之前要停下来，把结果或计划给人看一眼，确认之后再继续。

触发确认层的信号通常是三类：不可逆操作（发出去的邮件收不回来、删除的文件找不回来）；涉及外部系统（调用了你控制范围之外的接口、影响到第三方）；超出常规授权范围（这个任务比平时的规模大一个量级，或者涉及的权限明显高于日常）。

确认层是整个裁定机制里最难设计的部分。进来的情况太多，人成了瓶颈；进来的情况太少，失控风险上升。这条线没有标准答案，只有一个校准原则，后面会说。

第三层：拒绝层

这一层里的情况，无论结果看起来多合理，Agent都不应该执行。

拒绝层的设计逻辑和前两层不同——它不经过Agent的判断，而是硬编码在执行环境的外层。不是"Agent想了想，觉得不该做"，而是"这件事根本不会到Agent面前"。

为什么要这样设计？因为如果你把某些绝对禁止的事情留在Agent的判断范围内，你就是在赌模型在极端情况下仍然判断正确。这个赌注太大。拒绝层的东西，应该在架构层面就挡在外面。

谁来定这三层的边界

这是落地过程中最常被忽略的问题。

很多团队把裁定机制的设计交给技术团队，然后发现做出来的东西"感觉不对"，但说不清楚哪里不对。原因通常是：技术团队能实现任何你描述清楚的边界，但他们没有办法替你回答"什么对我们来说是不可逆的"这个问题。

这个问题只有业务侧能回答。

在动手设计裁定机制之前，需要先开一次认真的会议，把三个问题搞清楚：

你们在乎什么？ 这个Agent部署在什么场景里，它的核心任务是什么，哪些结果是你们真正想要的。

你们容忍什么？ 什么样的错误是可以接受的，什么样的偏差你们有能力处理，失败成本的上限在哪里。

你们绝对不接受什么？ 哪些操作一旦发生就是不可挽回的，哪些情况触碰到的是法律、合规或者核心业务的红线。

这三个问题的答案，直接决定了三层边界在哪里。技术团队拿到这些答案，才能做出有意义的实现。没有这些答案，做出来的只是一个形式上的裁定机制，不是一个真正工作的裁定机制。

确认层的校准：最难也最重要

回到确认层。

确认层的边界不是设计一次就完事的。它会随着两件事的变化而失效：Agent的行为在积累中变化，业务场景也在变化。

一个常见的失效路径是：确认层刚上线时设得比较谨慎，很多情况都要人确认。随着时间推移，大家发现大部分确认都是"没问题，继续"，于是开始觉得确认层太烦，逐渐放宽标准。边界慢慢外扩，直到某一天，一个本来应该进确认层的情况自主执行了，出了问题，才发现边界早就不是当初设计的那条线了。

这个漂移过程是静默的，没有人刻意为之，但它会发生。

防止漂移的方法是定期校准，而不是依赖人的自觉。校准机制的最简单形式是：每隔一段时间，把Agent最近的行为记录拿出来，对照三层边界检查——有没有本来应该在确认层的情况悄悄滑入了自主层？有没有拒绝层的边界被某些特殊情况绕过去了？

校准不需要很复杂，但必须存在。没有校准机制的裁定层，是一个会慢慢失忆的系统。

落地的起点不是写代码

说了这么多，裁定机制落地的第一步是什么？

不是打开代码编辑器，不是找一个现成的框架套进去。

是开那次会议。

把业务侧和技术侧的人放在一个房间里，花两个小时，认真回答那三个问题：你们在乎什么，容忍什么，绝对不接受什么。把答案写下来，让所有人对齐。

这件事大多数团队没有做，不是因为不重要，而是因为它没有技术门槛，反而容易被推迟——总觉得可以边做边想清楚。

但边界问题如果没有在部署之前想清楚，就会在出了问题之后被迫想清楚。两种情况都会消耗时间和精力，区别在于，前者是主动设计，后者是被动救火。

Harness搭好了执行环境，裁定机制划定了决策边界。两者合在一起，才构成一个真正可以放心交给Agent运行的系统。

公路和红绿灯都到位了，才能谈放开油门。

写在最后

裁定机制的设计，本质上是一次关于信任边界的对话。

你信任Agent到什么程度，在什么情况下信任，在什么情况下收回这份信任——这些判断，没有人能替你做。但有了清晰的三层结构和校准机制，至少你知道自己在做什么决定，也知道这个决定是否还在按你的意图工作。

这是判断工程落地最核心的一步：不是让Agent更聪明，而是让你自己更清楚。

我是「AioGeoLab」主理人塔迪Tardi，AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室，目前有两个主要研究方向：
「塔迪GEO判断工程」是基于GEO的价值SEO化，在AI从“说”到“做”的重要跃迁阶段，试图回答，如何让AI敢于行动、不因为责任问题而畏手畏脚，而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践，深层共鸣的探索。不是用AI解读经典，也不是用经典指导AI。这是一场跨越2500年的对话，在算法与古老智慧之间，照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。

你说「让Agent自己判断」，但判断的边界在哪里？丨裁定机制落地，需要回答这三个问题#

一个容易混淆的问题先说清楚#

裁定机制不是一个开关#

三层结构：自主、确认、拒绝#

谁来定这三层的边界#

确认层的校准：最难也最重要#

落地的起点不是写代码#

写在最后#