📌 TL;DR: 工具调用在执行链里插入了一个外部跳转节点,每个节点都有成功率、延迟和权限边界。五个各自95%成功率的工具串联,整体成功率只剩77%。工具数量和系统可靠性是乘法关系,不是线性关系。 判断一个工具该不该配,有四道关:是不是任务的必要条件、调用稳定性是否可靠、出错代价能不能承受、有没有更简单的替代方式。四关都过了再配,没过某一关先解决那一关的问题。 Hermes官方文档的建议是按任务类型对应最小工具集,从普通对话跑稳开始,逐步开放能力。验收标准只有一条:每个工具为什么需要?不能回答,就关掉。 还有一个容易忽视的维度:工具能做什么和工具在哪里跑,是两个独立的问题。只想了前者,忘了后者,是很多配置事故的根源。

工具越多,Agent越强?你可能配反了

信息图

有人做了一个实验,同样一个信息收集任务,交给两个配置不同的Agent来跑。

第一个配置:网页搜索 + 数据库查询 + 文件读写 + 自动发送邮件摘要,一套流程全部打通,让Agent从头跑到尾。

第二个配置:只开网页搜索,结果出来之后人工审一遍,再决定下一步。

最后稳定完成任务的是第二个。不是因为第一个能力不够,而是因为工具多了,任何一个环节出问题都会拖垮整个任务,出了问题也不知道从哪里排查起。

NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。


工具调用,在执行链上加了什么

大多数人理解工具调用的方式是:给Agent配一个工具,它就多了一种能力。这个理解没有错,但它遮住了另一面。

每一次工具调用,本质上是Agent离开自己的推理空间,跳进一个外部系统,拿回结果,再继续推理。这个跳转有成功率、有延迟、有格式要求、有权限边界——而且,任何一个工具的调用失败,都可能让整个任务链断掉。

单独看,每个工具的成功率可能都在95%以上,听起来很高。但如果任务需要依次调用五个工具,整体成功率就变成了五个95%相乘的结果——大约77%。任务复杂度没变,但系统的可靠性已经悄悄打了折。

工具数量和系统可靠性的关系,不是线性的,是乘法的。配工具之前,这笔账值得算一遍。


工具越多,出错后越难排查

成功率只是第一层问题,还有第二层:出错之后,你能不能快速找到是哪里断了。

单工具出错,定位很快——就这一个可能性,修复路径清晰。多工具协同的任务出错,你需要回溯:是搜索工具没返回预期结果,还是文件读取出了格式问题,还是下游的写入操作因为上游数据不对而失败?

配工具之前,有一个值得先问的问题:如果这个任务出了问题,我能在五分钟内定位到是哪一步? 如果答案是否定的,工具配置可能已经超出了你能管控的范围。


四个维度:该不该给Agent配这个工具

判断一个工具值不值得配,不是看"有了它会不会更方便",而是过四道关。

第一关:这个工具是任务完成的必要条件吗?

“有了会更好"不是充分理由。如果没有这个工具,任务完不成,那才是必要条件。可选工具先不配,必要工具精挑之后再配。

第二关:这个工具的调用稳定性可靠吗?

外部API有不稳定的可能,工具返回的格式可能因版本变化而偏移。如果工具本身的稳定性没有经过验证,把它放进执行链,等于主动引入了一个随机失败点。

第三关:这个工具出错的代价,可以承受吗?

读操作和写操作的出错代价完全不同。查一条信息查错了,重新来过;发了一封邮件或改了数据库,就不那么容易撤回。写操作工具出错通常不可逆,需要更严格的前置判断,甚至在触发前加人工确认节点。

第四关:这个工具能被更简单的方式替代吗?

有时候工具调用不是最优解。要查的信息可以提前注入Context,要跑的逻辑可以用脚本处理,要传递的数据可以直接格式化放进提示词。工具是手段,如果有更简单的手段,工具就不是最好的选择。

四关都过了,再配。没过某一关,先想清楚怎么处理那一关的问题。


Hermes的建议:按任务开工具,从最小集开始

这不只是一个抽象原则。Hermes 推荐了一张"最小工具集"对照表,按任务类型给出应该开哪一个工具:

查资料      → web/search
读文件      → file read
改文件      → file + patch
跑测试      → terminal + 明确 backend
操作页面    → browser
回查历史    → session_search
长期事实    → memory
复用流程    → skills
定时任务    → cronjob
跨平台通知  → messaging/send_message

文档里紧跟着这句话:“工具越多,权限越大,错误来源也越多。第一次使用只开最少能力:普通对话稳定后,再读文件,再运行低风险命令。”

这不是保守,是工程思维。先在最小配置下跑稳,再一层一层往上加,每加一层确认系统还在可控范围内。把工具一次全配上,图的是省事,但省掉的是对系统状态的掌控感。

Hermes文档里还有一条验收标准值得单独拿出来:“每个工具为什么需要?不能回答这个问题,就应该关掉它。” 这句话可以直接用作给Agent配工具之前的自检。


还有一件事:工具能做什么,和工具在哪里跑,是两个独立的问题

配置工具的时候,很多人只想到了第一个问题——开哪些工具。但Hermes文档里专门强调了一个容易被忽视的维度:工具在哪个环境里执行。

以Hermes为例,即使你开了terminal工具,命令是在你的本机直接跑,还是在一个隔离的云端沙箱里跑,结果差别很大。本机执行没有任何隔离,一条错误的命令可以直接影响你的整个工作环境;云端沙箱有隔离边界,出了问题损失有上限。

“开了哪些工具"和"这些工具在哪里跑”,是两个必须分开想清楚的问题。 只想了前者,忘了后者,是很多工具配置事故的根源。

这个道理对所有Agent工具系统都成立,不只是Hermes。


写在最后

工具不是越多越强,是越精越稳。

给Agent配工具,不是在给它加装备,是在设计一套执行系统。系统设计的第一原则,不是功能最大化,是失败可控。

从最小工具集开始,跑稳了再加,加一个验证一个。这不是因为谨慎,而是因为你对系统的掌控,不能超过你对它的理解。


感谢你看到最后,如果你觉得有启发,随手点个赞、在看、转发吧,如果想第一时间收到推送,也可以给我加个星标⭐我们下期见。

我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025