📌 TL;DR: "Agent能不能做这件事"问的是能力,能力在快速进化,这个问题的答案保质期越来越短。更稳定的判断依据是任务的结构属性,和模型版本无关。 三个结构维度:可验证性(做完你能不能判断对错)、可逆性(做错了代价有多大)、上下文完整性(所需信息能不能完整传递)。三个维度的评分,决定了这个任务适合完全交出去、还是需要在结构上加保险。 三维都高,放手交;可验证性低,Agent做初稿人来判;可逆性低,不可逆节点前加人工确认;上下文完整性低,先补信息或调整Agent角色。不是排除哪些任务,是知道给它做的时候结构上需要补什么。 Agent能力填不了这个判断空间,只有人能。会用Agent的人,不只是知道Agent能做什么,更知道怎么在结构上管好这个边界——这两件事之间的距离,就是判断力的空间。

不是Agent不够聪明,是这个任务不该给它做丨三个维度,判断任务该不该交出去

信息图

“这件事能不能给Agent做?”

这个问题每天都在被问。大多数人问的时候,心里想的是能力——Agent有没有能力完成这件事。

这个问题的答案正在快速变化。今天不能做的,明天可能就能做;三个月前需要人盯着的,现在可以放手跑。用"能不能做"来判断,你跟的是一个移动的靶子,判断结果的保质期越来越短。

更稳定的判断依据,不是Agent的能力,而是任务的结构。

任务的结构不会因为模型升级而改变。一封已经发出去的邮件,不管用多强的模型写的,都没有办法收回来。一个依赖大量行业潜规则的判断,不管模型有多聪明,拿不到那些信息就是拿不到。

有三个结构维度,决定了一个任务该不该交给Agent独立执行。


NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。

* * *

第一维度:可验证性——做完了,你怎么知道做对了

这个维度问的是:这个任务有没有清晰的"对"的标准?做完之后,你有没有能力判断结果是否正确?

有些任务,对错一目了然。代码跑起来了还是报错了,数据格式符不符合要求,表格里的数字加起来对不对——这些有客观的验证标准,做完就能检验。这类任务,可验证性高,适合交给Agent执行。

有些任务,对错要靠判断。这个方案够不够好,这封邮件的语气是否恰当,这个策略值不值得推进——没有客观的对错标准,评判依赖经验、直觉、对具体情境的理解。这类任务,可验证性低。

**可验证性低的任务,Agent做完你没有能力快速检验,出了问题你不知道,等到发现时可能已经是下游的麻烦。**这不是Agent的错,是你没有能力在它做完之后验证那个结果。

可验证性低的任务,不是不能用Agent,而是要调整角色:让Agent做初稿,人来评判;让Agent列出选项,人来拍板。Agent辅助你做判断,而不是替代你做判断。


第二维度:可逆性——做错了,能改回来吗

这个维度问的是:如果Agent做错了,结果是可以修正的,还是无法挽回的?

可逆性高的任务,最坏的结果是浪费时间:写了一份烂方案,推倒重写就行;生成了一批不合用的素材,丢掉重来就行。代价有限,放手去做。

可逆性低的任务,最坏的结果可能是灾难:邮件发错了收件人,发出去就是发出去了;生产数据库里的记录删了,没有备份就永远消失了;合同签了,条款里的问题签下去就生效了。

可逆性是风险的天花板。 可逆任务的天花板是"时间浪费",不可逆任务的天花板是"无法弥补"。在不可逆任务上出错,和在可逆任务上出错,是完全不同量级的事情。

前面有一期,讲过工具误用模式——Agent找对了工具,但调用时参数、时序出了问题,50条客户交互记录从CRM里消失。工具误用之所以危险,很大程度上正是因为它发生在可逆性极低的写操作上。

可逆性低的任务不是不能用Agent,而是要在执行结构上加保险:在不可逆操作之前加一个人工确认节点,让Agent执行到那里停下来,人看一眼再继续。这不是不信任Agent,是对不可逆性的正确处理。


第三维度:上下文完整性——Agent拿到的信息够不够

这个维度问的是:完成这个任务所需要的信息,能不能完整地传递给Agent?

有些任务,所需信息可以被显式描述。任务目标清晰,约束条件明确,背景资料可以整理好传进去——Agent拿到就够用。这类任务,上下文完整性高,适合交出去。

有些任务,依赖大量隐性知识。你们公司内部评审方案时那个不成文的逻辑,这位客户的沟通习惯和雷区,行业里心照不宣的惯例——这些信息活在你脑子里,或者分散在各种没有整理的经历里,你自己都说不完整,更别说写进一段指令传给Agent。

上下文完整性低,不代表任务不能用Agent,代表你需要先想清楚信息缺口在哪里。 缺口补得上,整理一下再交;补不上,就把Agent的角色从"独立执行"改成"在你的引导下辅助"——你提供隐性判断,它负责执行动作。

这一点和前篇讲的指令写法有关联,但不完全一样。指令写法是技巧层面的问题,上下文完整性是任务本身的结构属性——有些任务不是写法的问题,是它所依赖的信息从根本上就很难被完整传递。


三个维度放在一起

单独看每个维度,判断的是一个维度上的风险。放在一起看,能得到一张更完整的图:

三个维度都高——可验证、可逆、上下文完整——这是最适合Agent完全自主执行的任务类型。交出去,不需要盯着。

可验证性低——结果对不对你判断不了——Agent做初稿或列选项,人来评判拍板,不让Agent独立交付最终结果。

可逆性低——做错了代价极高——在不可逆节点之前加人工确认,Agent执行到那里暂停,人看一眼再放行。

上下文完整性低——信息传不完整——先补足信息再交,或者把Agent角色从执行者调整为辅助者,人主导判断,Agent负责执行动作。

三个维度都低——任务依赖主观判断、不可逆、信息高度隐性——这类任务不适合Agent独立执行,人主导、Agent辅助是更合适的分工。

这不是一张非黑即白的筛选表,而是一个帮你看清楚风险的框架。同一个任务,在不同的执行结构下,三个维度的评分可能不一样——加了人工确认节点,可逆性的风险就被控制住了;补足了信息传递,上下文完整性就提上来了。

判断这三个维度,不是为了排除哪些任务不能给Agent做,而是为了知道给它做的时候,结构上需要补什么。


写在最后

Agent能力会持续进化,但这三个判断维度不会过时。

可验证性、可逆性、上下文完整性——这三件事是任务本身的属性,和模型版本无关。今天的框架,用在一年后的任务上仍然成立。

会用Agent的人,不只是知道Agent能做什么,更知道什么该让Agent做、什么该人来做、以及怎么在结构上管好这个边界。


我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025