你是不是以为Agent越聪明,任务完成率就越高丨Agent误解系列

这个误解很正常,因为它有合理的来源。
模型能力确实在飞速提升——METR的研究数据显示,前沿AI Agent能稳定完成的任务时长每7个月翻一倍,到2026年初这个速度还在加快。厂商的宣传语也在强化这个感知:更强的推理、更长的上下文、更高的基准测试分数。你很自然地会认为,模型越强,任务就完成得越好。
但这里有一个混淆,而且是一个代价很高的混淆。
模型能力是Agent能处理的任务上限,不是你布置的具体任务的完成率。
NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。
完成率是个系统指标,不是模型指标
举一个具体的情况。
你让Agent帮你整理一份竞品分析报告。任务布置出去,Agent跑了二十分钟,最后输出了一份看起来格式完整的文档。这算完成了吗?
Agent认为完成了。但你打开一看:几个数据来源没有标注、关键竞品漏掉了一家、结论部分和前面的数据逻辑对不上。
这就是"沉默失败"——它以完成的面目出现,但任务实际上没有做对。
换一个更贵的模型能解决这个问题吗?大概率不能。因为问题的根源不在模型,在任务设计的三个地方出了缺口。
任务设计里的三个缺口
第一个缺口:任务的终点没有定义清楚。
“整理竞品分析报告”——报告要包含哪些竞品?每个竞品要分析哪些维度?最终长度是什么量级?Agent在没有明确边界的情况下,会用概率最高的方式填充内容。它不是在理解你的需求,它是在预测你的需求。两件事,机制完全不同。
如果你没有划清边界,Agent就会自己判断边界在哪里。它的判断依据是训练数据里"竞品分析报告"通常长什么样,不是你这个任务的具体要求。
第二个缺口:没有定义"做对了"是什么样的。
Agent知道什么叫"做完了"——输出了一份文档。但它不知道什么叫"做对了",除非你告诉它。
验收标准缺失,是沉默失败的直接原因。Agent无法自我评估结果是否符合要求,因为它没有评估依据。更强的模型会更自信地给你一份"完成"的输出,不会因为结果不确定而停下来问你。
第三个缺口:长任务里没有设中间检查点。
任务越长,误差积累的机会越多。每一步的输出是下一步的输入,前面跑偏了,后面会继续在跑偏的基础上跑偏。
METR的研究揭示了一个很直接的规律:任务时长和Agent成功率之间有高度相关性(R²达到0.83)。任务越长,成功率下降得越明显。这不是模型问题,是错误在执行链上传播、积累的结构性规律。短任务里一个小偏差无所谓,长任务里同一个偏差会被放大三倍。
没有中间检查点的长任务,是把误差传播的机会完全交给了结构,而不是用设计去控制它。
换更好的模型,有时候只是让错误跑得更远
这是一个反直觉的结论。
更聪明的模型会更流畅地执行你的指令,包括有缺陷的指令。它不会因为任务边界模糊而停下来,因为它的能力就是在模糊条件下推断最可能的答案;它不会因为缺少验收标准而报警,因为它不知道你的标准是什么;它会更快速地走完更长的链条,误差积累的步骤数也随之增加。
这不是说更好的模型没用。在任务设计已经做好的前提下,模型能力的提升确实直接带来完成率的提升。关键词是"前提下"。
没有这个前提,换模型是在更快地跑错方向。
任务失败了,先问这三个问题
在决定换模型之前,先对着这三个问题检查一遍:
任务的终点有没有定义清楚——Agent知道"做完"意味着什么?
验收标准有没有写进去——什么叫做对了,有没有可检验的标准?
长任务里有没有设检查点——中间状态有没有检查机制,而不是一路跑到终点才看结果?
三个问题如果有任何一个答案是"没有",先补上再说。补完之后如果还跑不好,再考虑模型的问题。
这个顺序不是在为模型辩护,是在帮你把时间花在真正影响结果的地方。
写在最后
任务完成率是一个系统指标。模型是系统里的一个节点,通常不是那个最脆弱的节点。
最脆弱的节点是任务设计:边界没划清、标准没定好、误差没有被拦住。这三件事,换哪个模型都解决不了。
感谢你看到最后,如果你觉得有启发,随手点个赞、在看、转发吧,如果想第一时间收到推送,也可以给我加个星标⭐我们下期见。
我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
「塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。
