📌 TL;DR: 工具调用在执行链里插入了一个外部跳转节点，每个节点都有成功率、延迟和权限边界。五个各自95%成功率的工具串联，整体成功率只剩77%。工具数量和系统可靠性是乘法关系，不是线性关系。判断一个工具该不该配，有四道关：是不是任务的必要条件、调用稳定性是否可靠、出错代价能不能承受、有没有更简单的替代方式。四关都过了再配，没过某一关先解决那一关的问题。 Hermes官方文档的建议是按任务类型对应最小工具集，从普通对话跑稳开始，逐步开放能力。验收标准只有一条：每个工具为什么需要？不能回答，就关掉。还有一个容易忽视的维度：工具能做什么和工具在哪里跑，是两个独立的问题。只想了前者，忘了后者，是很多配置事故的根源。

工具越多，Agent越强？你可能配反了

信息图

有人做了一个实验，同样一个信息收集任务，交给两个配置不同的Agent来跑。

第一个配置：网页搜索 + 数据库查询 + 文件读写 + 自动发送邮件摘要，一套流程全部打通，让Agent从头跑到尾。

第二个配置：只开网页搜索，结果出来之后人工审一遍，再决定下一步。

最后稳定完成任务的是第二个。不是因为第一个能力不够，而是因为工具多了，任何一个环节出问题都会拖垮整个任务，出了问题也不知道从哪里排查起。

NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。

工具调用，在执行链上加了什么

大多数人理解工具调用的方式是：给Agent配一个工具，它就多了一种能力。这个理解没有错，但它遮住了另一面。

每一次工具调用，本质上是Agent离开自己的推理空间，跳进一个外部系统，拿回结果，再继续推理。这个跳转有成功率、有延迟、有格式要求、有权限边界——而且，任何一个工具的调用失败，都可能让整个任务链断掉。

单独看，每个工具的成功率可能都在95%以上，听起来很高。但如果任务需要依次调用五个工具，整体成功率就变成了五个95%相乘的结果——大约77%。任务复杂度没变，但系统的可靠性已经悄悄打了折。

工具数量和系统可靠性的关系，不是线性的，是乘法的。配工具之前，这笔账值得算一遍。

工具越多，出错后越难排查

成功率只是第一层问题，还有第二层：出错之后，你能不能快速找到是哪里断了。

单工具出错，定位很快——就这一个可能性，修复路径清晰。多工具协同的任务出错，你需要回溯：是搜索工具没返回预期结果，还是文件读取出了格式问题，还是下游的写入操作因为上游数据不对而失败？

配工具之前，有一个值得先问的问题：如果这个任务出了问题，我能在五分钟内定位到是哪一步？ 如果答案是否定的，工具配置可能已经超出了你能管控的范围。

四个维度：该不该给Agent配这个工具

判断一个工具值不值得配，不是看"有了它会不会更方便"，而是过四道关。

第一关：这个工具是任务完成的必要条件吗？

“有了会更好"不是充分理由。如果没有这个工具，任务完不成，那才是必要条件。可选工具先不配，必要工具精挑之后再配。

第二关：这个工具的调用稳定性可靠吗？

外部API有不稳定的可能，工具返回的格式可能因版本变化而偏移。如果工具本身的稳定性没有经过验证，把它放进执行链，等于主动引入了一个随机失败点。

第三关：这个工具出错的代价，可以承受吗？

读操作和写操作的出错代价完全不同。查一条信息查错了，重新来过；发了一封邮件或改了数据库，就不那么容易撤回。写操作工具出错通常不可逆，需要更严格的前置判断，甚至在触发前加人工确认节点。

第四关：这个工具能被更简单的方式替代吗？

有时候工具调用不是最优解。要查的信息可以提前注入Context，要跑的逻辑可以用脚本处理，要传递的数据可以直接格式化放进提示词。工具是手段，如果有更简单的手段，工具就不是最好的选择。

四关都过了，再配。没过某一关，先想清楚怎么处理那一关的问题。

Hermes的建议：按任务开工具，从最小集开始

这不只是一个抽象原则。Hermes 推荐了一张"最小工具集"对照表，按任务类型给出应该开哪一个工具：

查资料      → web/search
读文件      → file read
改文件      → file + patch
跑测试      → terminal + 明确 backend
操作页面    → browser
回查历史    → session_search
长期事实    → memory
复用流程    → skills
定时任务    → cronjob
跨平台通知  → messaging/send_message

文档里紧跟着这句话：“工具越多，权限越大，错误来源也越多。第一次使用只开最少能力：普通对话稳定后，再读文件，再运行低风险命令。”

这不是保守，是工程思维。先在最小配置下跑稳，再一层一层往上加，每加一层确认系统还在可控范围内。把工具一次全配上，图的是省事，但省掉的是对系统状态的掌控感。

Hermes文档里还有一条验收标准值得单独拿出来：“每个工具为什么需要？不能回答这个问题，就应该关掉它。” 这句话可以直接用作给Agent配工具之前的自检。

还有一件事：工具能做什么，和工具在哪里跑，是两个独立的问题

配置工具的时候，很多人只想到了第一个问题——开哪些工具。但Hermes文档里专门强调了一个容易被忽视的维度：工具在哪个环境里执行。

以Hermes为例，即使你开了terminal工具，命令是在你的本机直接跑，还是在一个隔离的云端沙箱里跑，结果差别很大。本机执行没有任何隔离，一条错误的命令可以直接影响你的整个工作环境；云端沙箱有隔离边界，出了问题损失有上限。

“开了哪些工具"和"这些工具在哪里跑”，是两个必须分开想清楚的问题。 只想了前者，忘了后者，是很多工具配置事故的根源。

这个道理对所有Agent工具系统都成立，不只是Hermes。

写在最后

工具不是越多越强，是越精越稳。

给Agent配工具，不是在给它加装备，是在设计一套执行系统。系统设计的第一原则，不是功能最大化，是失败可控。

从最小工具集开始，跑稳了再加，加一个验证一个。这不是因为谨慎，而是因为你对系统的掌控，不能超过你对它的理解。

感谢你看到最后，如果你觉得有启发，随手点个赞、在看、转发吧，如果想第一时间收到推送，也可以给我加个星标⭐我们下期见。

我是「AioGeoLab」主理人塔迪Tardi，AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室，目前有两个主要研究方向：
「塔迪GEO判断工程」是基于GEO的价值SEO化，在AI从“说”到“做”的重要跃迁阶段，试图回答，如何让AI敢于行动、不因为责任问题而畏手畏脚，而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践，深层共鸣的探索。不是用AI解读经典，也不是用经典指导AI。这是一场跨越2500年的对话，在算法与古老智慧之间，照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。

工具越多，Agent越强？你可能配反了#

工具调用，在执行链上加了什么#

工具越多，出错后越难排查#

四个维度：该不该给Agent配这个工具#

Hermes的建议：按任务开工具，从最小集开始#

还有一件事：工具能做什么，和工具在哪里跑，是两个独立的问题#

写在最后#