📌 TL;DR: ChatGPT帮你写邮件，Agent帮你把邮件发出去。这不是能力差距，是结构差距——语言模型的输出永远是文字，工具调用打破了这道墙。工具的本质是一个有名字、有描述、有参数的函数接口。AI做的是判断：什么时候调用、调用哪个、传什么参数。真正执行的是工具本身。AI是大脑，工具是手。工具分三层：系统级（操作计算机）、服务级（调用外部API）、Agent级（调用另一个Agent）。层次越高，任务越复杂，风险也越分散。工具越多越好是直觉，但不是现实——工具多了会稀释上下文、增加选错概率，克制的工具设计才是正确的方向。工具是放大器，不区分好结果和坏结果。说错话是误导，执行错了可能是不可逆的。Agent有了工具之后，"谁来管它"才从哲学问题变成了工程问题。

Agent的手：工具调用是什么

信息图

系列一的前几篇讲清楚了Agent是什么、怎么理解它的主动性、怎么迈出使用的第一步。但有一个更基础的问题一直没有正面回答：

Agent为什么能"做事"，而不只是"说话"？

这篇来回答这个问题。

NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。

ChatGPT和Agent之间的那道墙

举一个最简单的例子。

你问ChatGPT：“帮我给张三发一封会议邀请邮件。”

它会给你写一封措辞得体的邮件，格式规范，内容完整。然后你需要自己打开邮件客户端，复制粘贴，点击发送。

你对OpenClaw说同样一句话。

几秒钟后，邮件发出去了。你什么都没做。

这两件事之间的差距，不是模型能力的差距，不是智商的差距。是一道结构性的墙：语言模型的输出永远是文字，而文字本身不会触发任何真实世界的变化。

ChatGPT生成了邮件内容，但它没有办法打开你的邮件客户端、填写收件人、点击发送。它的能力边界就是文字的边界。

Agent打破了这道墙。打破它的方式，叫做工具调用。

工具调用是什么

工具的本质，是一个有名字、有描述、有参数规范的函数接口。

听起来抽象，用例子来说。一个"发送邮件"的工具，长这样：

名字：send_email
描述：向指定收件人发送一封邮件
参数：收件人地址、邮件主题、邮件正文

AI拿到这个工具描述之后，当它判断当前任务需要发邮件，它就会生成一个调用指令：调用send_email，收件人填zhangsan@company.com，主题填"会议邀请"，正文填它刚才生成的内容。

这个调用指令被执行，邮件真的发出去了。

所以工具调用的完整链路是这样的：

理解任务 → 判断需要哪个工具 → 生成调用参数 → 执行工具 → 处理返回结果 → 继续推理下一步

这个循环可以跑很多轮。一个稍微复杂的任务，Agent可能要调用十几次工具才能完成。每一次调用的结果，都会成为下一步推理的输入。

AI做的事，是判断和决策：什么时候调用、调用哪个、传什么参数。 真正执行的是工具本身，是代码，是外部服务。AI是大脑，工具是手。

工具的三个层次

市面上Agent工具的种类繁多，但归根到底可以分成三个层次。

第一层：系统级工具。

直接操作计算机——读文件、写文件、执行命令行、控制浏览器。

这是Agent能"动手"的基础。有了这层工具，Agent就可以操作你电脑上的任何东西：读取文档、修改代码、打开网页、下载文件。

这也是风险最集中的地方。系统级权限意味着Agent的操作和你亲自操作没有本质区别——你能做的，它也能做；你做错了会有的后果，它做错了同样会有。

第二层：服务级工具。

调用外部API——查天气、发邮件、搜索网页、操作日历、读写数据库。

Agent通过这层工具接入真实世界的信息流和服务。这让Agent不再局限于你本地的文件和程序，而是可以和互联网上的任何服务交互。

第三层：Agent级工具。

调用另一个Agent。

当任务足够复杂，一个Agent搞不定，可以把任务拆解，分发给多个专门的子Agent分别执行，再把结果汇总。这是多Agent协作架构的基础，也是当前Agent能力边界扩展最快的方向。

工具越多越好吗

直觉上，工具越多，Agent能做的事越多，应该越好。

现实不完全是。

每一个工具，在被加载进Agent的时候，它的名字和描述都要占用上下文窗口。工具越多，能留给真正的任务内容和推理过程的空间就越少。更重要的是，工具一多，Agent在"选哪个工具"这件事上的判断难度也会上升——选项越多，选错的概率越高。

OpenClaw的设计哲学在这件事上给出了一个极端但有说服力的答案：4个核心工具，Read、Write、Edit、Bash，撑起了几乎所有操作系统级别的任务。

创始人Peter Steinberger的原话很直接：CLI才是AI连接世界的终极接口。你能用命令行做的事，Agent就能做。不需要为每个服务单独造一个工具，Bash就够了。

这不是功能缺失，是刻意克制。好的工具设计的核心不是堆砌，而是用最少的工具覆盖最大的任务范围。

工具带来的新风险

工具是Agent能力的放大器。它让Agent从"会说"变成了"会做"。

但放大器不区分好结果和坏结果。

语言模型说错了，最坏的情况是误导你。Agent用工具执行错了，后果可能是不可逆的——发出去的邮件收不回来，删掉的文件可能找不回来，提交出去的代码已经在跑了。

这是Agent和聊天机器人在本质上最重要的区别，也是使用Agent需要建立的最基本的认知：它不只是在帮你想，它在帮你做。帮你做的事，有真实的后果。

正因为如此，“谁来管它"这个问题，在Agent有了工具之后，才从一个哲学问题变成了一个工程问题。

工具赋予了Agent行动力。行动力带来了价值，也带来了责任。这两件事永远是一体的。这也正是我一直在研究的课题。

一句话总结

Agent之所以能"做事"而不只是"说话”，是因为工具调用打破了语言模型只能输出文字的结构性限制——AI是判断和决策的大脑，工具是真正执行的手，两者缺一不可，而工具越多越好的直觉是错的，克制的工具设计才能让Agent真正好用，代价是工具赋予了行动力、也带来了不可逆的风险。

我是「AioGeoLab」主理人塔迪Tardi，AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室，目前有两个主要研究方向：
「塔迪GEO判断工程」是基于GEO的价值SEO化，在AI从“说”到“做”的重要跃迁阶段，试图回答，如何让AI敢于行动、不因为责任问题而畏手畏脚，而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践，深层共鸣的探索。不是用AI解读经典，也不是用经典指导AI。这是一场跨越2500年的对话，在算法与古老智慧之间，照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。

Agent的手：工具调用是什么#

ChatGPT和Agent之间的那道墙#

工具调用是什么#

工具的三个层次#

工具越多越好吗#

工具带来的新风险#

一句话总结#