工具越多,Agent越强?你可能配反了

有人做了一个实验,同样一个信息收集任务,交给两个配置不同的Agent来跑。
第一个配置:网页搜索 + 数据库查询 + 文件读写 + 自动发送邮件摘要,一套流程全部打通,让Agent从头跑到尾。
第二个配置:只开网页搜索,结果出来之后人工审一遍,再决定下一步。
最后稳定完成任务的是第二个。不是因为第一个能力不够,而是因为工具多了,任何一个环节出问题都会拖垮整个任务,出了问题也不知道从哪里排查起。
NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。
工具调用,在执行链上加了什么
大多数人理解工具调用的方式是:给Agent配一个工具,它就多了一种能力。这个理解没有错,但它遮住了另一面。
每一次工具调用,本质上是Agent离开自己的推理空间,跳进一个外部系统,拿回结果,再继续推理。这个跳转有成功率、有延迟、有格式要求、有权限边界——而且,任何一个工具的调用失败,都可能让整个任务链断掉。
单独看,每个工具的成功率可能都在95%以上,听起来很高。但如果任务需要依次调用五个工具,整体成功率就变成了五个95%相乘的结果——大约77%。任务复杂度没变,但系统的可靠性已经悄悄打了折。
工具数量和系统可靠性的关系,不是线性的,是乘法的。配工具之前,这笔账值得算一遍。
工具越多,出错后越难排查
成功率只是第一层问题,还有第二层:出错之后,你能不能快速找到是哪里断了。
单工具出错,定位很快——就这一个可能性,修复路径清晰。多工具协同的任务出错,你需要回溯:是搜索工具没返回预期结果,还是文件读取出了格式问题,还是下游的写入操作因为上游数据不对而失败?
配工具之前,有一个值得先问的问题:如果这个任务出了问题,我能在五分钟内定位到是哪一步? 如果答案是否定的,工具配置可能已经超出了你能管控的范围。
四个维度:该不该给Agent配这个工具
判断一个工具值不值得配,不是看"有了它会不会更方便",而是过四道关。
第一关:这个工具是任务完成的必要条件吗?
“有了会更好"不是充分理由。如果没有这个工具,任务完不成,那才是必要条件。可选工具先不配,必要工具精挑之后再配。
第二关:这个工具的调用稳定性可靠吗?
外部API有不稳定的可能,工具返回的格式可能因版本变化而偏移。如果工具本身的稳定性没有经过验证,把它放进执行链,等于主动引入了一个随机失败点。
第三关:这个工具出错的代价,可以承受吗?
读操作和写操作的出错代价完全不同。查一条信息查错了,重新来过;发了一封邮件或改了数据库,就不那么容易撤回。写操作工具出错通常不可逆,需要更严格的前置判断,甚至在触发前加人工确认节点。
第四关:这个工具能被更简单的方式替代吗?
有时候工具调用不是最优解。要查的信息可以提前注入Context,要跑的逻辑可以用脚本处理,要传递的数据可以直接格式化放进提示词。工具是手段,如果有更简单的手段,工具就不是最好的选择。
四关都过了,再配。没过某一关,先想清楚怎么处理那一关的问题。
Hermes的建议:按任务开工具,从最小集开始
这不只是一个抽象原则。Hermes 推荐了一张"最小工具集"对照表,按任务类型给出应该开哪一个工具:
查资料 → web/search
读文件 → file read
改文件 → file + patch
跑测试 → terminal + 明确 backend
操作页面 → browser
回查历史 → session_search
长期事实 → memory
复用流程 → skills
定时任务 → cronjob
跨平台通知 → messaging/send_message
文档里紧跟着这句话:“工具越多,权限越大,错误来源也越多。第一次使用只开最少能力:普通对话稳定后,再读文件,再运行低风险命令。”
这不是保守,是工程思维。先在最小配置下跑稳,再一层一层往上加,每加一层确认系统还在可控范围内。把工具一次全配上,图的是省事,但省掉的是对系统状态的掌控感。
Hermes文档里还有一条验收标准值得单独拿出来:“每个工具为什么需要?不能回答这个问题,就应该关掉它。” 这句话可以直接用作给Agent配工具之前的自检。
还有一件事:工具能做什么,和工具在哪里跑,是两个独立的问题
配置工具的时候,很多人只想到了第一个问题——开哪些工具。但Hermes文档里专门强调了一个容易被忽视的维度:工具在哪个环境里执行。
以Hermes为例,即使你开了terminal工具,命令是在你的本机直接跑,还是在一个隔离的云端沙箱里跑,结果差别很大。本机执行没有任何隔离,一条错误的命令可以直接影响你的整个工作环境;云端沙箱有隔离边界,出了问题损失有上限。
“开了哪些工具"和"这些工具在哪里跑”,是两个必须分开想清楚的问题。 只想了前者,忘了后者,是很多工具配置事故的根源。
这个道理对所有Agent工具系统都成立,不只是Hermes。
写在最后
工具不是越多越强,是越精越稳。
给Agent配工具,不是在给它加装备,是在设计一套执行系统。系统设计的第一原则,不是功能最大化,是失败可控。
从最小工具集开始,跑稳了再加,加一个验证一个。这不是因为谨慎,而是因为你对系统的掌控,不能超过你对它的理解。
感谢你看到最后,如果你觉得有启发,随手点个赞、在看、转发吧,如果想第一时间收到推送,也可以给我加个星标⭐我们下期见。
我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
「塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。
