裁定权不会消失,只会转移|判断工程

部署Agent这件事,有一个很常见的分配方式。
工程师花了大量时间让Agent能干——调参数、接工具、优化提示词、跑测试、处理边界情况。产品侧花时间想怎么用它——哪些场景交给它,怎么设计交互流程。
然后上线了。
很少有人在这个过程里认真回答过一个问题:这个Agent在什么情况下,不应该继续往下走?
不是因为大家不关心,是因为这个问题从来不会报错。Agent能不能完成任务,测试阶段就会暴露。但Agent是不是应该完成这个任务、在什么条件下应该停下来等人确认——这类问题不会触发任何警告,直到出了事。
* * *NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。
判断工程在解决哪个问题
先说清楚一件事:判断工程不是让AI变得更聪明,也不是替代AI的判断,更不是保证AI每次都做对。
它解决的是另一个问题:AI做到之后,谁来说算数。
这里有一个三层结构,是理解判断工程的基础:
推理层,AI在概率空间里生成路径。给它一个问题,它能列出很多种可能的走法。这一层主要由预训练决定,是AI的"先天"能力。
判断层,从所有路径里选一条继续走。选的不是最快的那条,而是更慢、更严谨的那条。这一层主要由后训练塑造,是AI的"后天"判断力。
裁定层,决定这个判断流是否被允许继续——是继续执行,还是暂停等待人的确认,还是直接拒绝。
大多数AI系统有前两层。第三层,裁定层,普遍缺失。
缺失不代表它不存在。裁定层不会因为没有被设计就消失——它只会以另一种方式出现:要么是Agent默认继续走,要么是没有人能在关键时刻叫停它。
裁定权不会消失,只会转移。 你不主动设计它,它就悄悄流走了。
四种必须有裁定层的情况
判断工程有一个判断标准:满足以下四种条件之一,裁定层就从"可选"变成"必选"。
不可逆后果。 Agent执行的动作,如果做完了就无法撤回,就必须有裁定层介入。删除文件、发出邮件、提交订单、触发支付——这些操作的共同特征是,错了之后没有"撤销"按钮。Agent在这类操作前,必须有一个明确的确认机制,而不是默认继续。
责任归属要求。 当一个决策需要有人能够事后说清楚"这是谁批准的",裁定层就是必须的。不只是法律层面的追责,也包括组织内部的问责——如果出了问题,谁都说不清楚是人决定的还是Agent自己决定的,这个系统的设计就有问题。
组织级复用。 当一个Agent的行为模式被复用到整个组织或大量用户,单次判断错误的影响会被放大成系统性风险。这时候,裁定层不只是保护单次执行,而是保护整个组织不因为一个错误的决策模式而系统性出错。
执行触发。 当Agent的输出不只是生成内容,而是直接触发外部系统的动作——调用API、操作数据库、控制硬件——裁定层必须在执行触发之前介入,而不是之后。之后已经来不及了。
这四个条件,不需要同时满足,满足任意一个就够了。
裁定层缺失的代价
裁定层缺失不是假设性的风险,它已经以几种固定的模式反复出现。
最常见的一种,叫权限漂移。Agent最初被授权做一件有限的事,但随着使用场景扩展,它接入的系统越来越多,能做的事越来越多,而没有人回头重新审视这条边界有没有悄悄移动。移动本身没有仪式感,没有任何警告,直到有一天你发现它在做一件你从来没有授权过的事。
第二种模式,叫信任链被利用。今年发生的几起安全事件,包括Vercel权限继承攻击和ClawHub的恶意Skills植入,结构上都是同一件事:攻击者没有直接攻击目标,而是攻击目标信任的中间人——一个被授权的AI工具、一个被信任的Skills来源。Agent忠实地执行了来自被污染的信任链的指令,用的是用户的授权,走的是Agent自己规划的路径。没有裁定层,就没有任何东西在这条链条的某个节点上叫停它。
第三种模式,是最日常也最容易被忽视的一种:责任真空。Agent出了问题,没有人说得清楚这个决定是谁做的。是模型做的?是工作流设计的?是调用了某个数据源导致的?是授权时的边界没划清楚?因为裁定层从来没有被设计,所以责任链从来没有被建立,出了事只能从头倒查。
这三种模式有一个共同的前置条件:部署之前没有人认真回答过"这个Agent在什么情况下不应该继续"这个问题。
你现在可以做的三件事
理解框架之后,有三个具体的行动出口。
第一,画出你的Agent的权限边界。
不是技术文档,是一张可以被非技术人员看懂的清单:这个Agent被授权做什么,明确不能做什么,在什么情况下必须停下来等人确认。
这张清单不需要很长,但必须存在。它的价值不只是约束Agent,还在于让所有相关的人——产品、工程、业务、管理层——对同一张边界图有共同的认知。边界如果只存在于某个工程师的脑子里,它就不是真正存在的边界。
第二,给你的Agent发一张工牌。
工牌的概念来自于一个简单的类比:一个没有工牌的员工出了问题,你不知道他的权限是什么,也不知道他代表谁在行动。Agent也一样。
工牌包含三个要素:这个Agent的授权范围(能做什么)、行为边界(不能做什么)、上报条件(什么情况下必须等人点头)。这三个要素形成文档,不只给工程师看,也给业务侧的人看,给未来可能接手这个系统的人看。
没有工牌的Agent,出了问题是无法追溯的。
第三,建立定期校准机制。
权限边界会漂移,这不是比喻,是已经反复被证实的规律。Agent使用场景扩展,接入的系统增加,原来的边界就不再准确了。但因为漂移是渐进的、没有仪式感的,没有人会主动注意到它发生了。
定期校准不是一次性的安全审计,是一个持续的治理动作。频率取决于你的Agent使用场景变化的速度——变化快的,至少每季度重新看一遍边界;变化慢的,每半年。校准的核心问题只有一个:这个Agent今天实际在做的事,还在我们当初划定的边界里吗?
写在最后
判断工程这个系列写了很多篇,从裁定权的定义,到Harness Engineering,到六阶段授权地图,到裁定机制落地,到安全事件拆解,到监管动态。
但核心始终是同一件事:Agent越来越能干,人对关键决策的掌控不能因此变少。
这不是对AI能力的不信任,是对系统设计的基本要求。一个没有裁定层的Agent系统,不是在信任AI,是在放弃对系统的治理。
裁定权不会消失,只会转移。
主动设计它,还是让它悄悄流走——这个选择,每个在部署Agent的人都在做,不管他们意不意识到。
我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
「塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。
