📌 TL;DR: ChatGPT帮你写邮件,Agent帮你把邮件发出去。这不是能力差距,是结构差距——语言模型的输出永远是文字,工具调用打破了这道墙。 工具的本质是一个有名字、有描述、有参数的函数接口。AI做的是判断:什么时候调用、调用哪个、传什么参数。真正执行的是工具本身。AI是大脑,工具是手。 工具分三层:系统级(操作计算机)、服务级(调用外部API)、Agent级(调用另一个Agent)。层次越高,任务越复杂,风险也越分散。工具越多越好是直觉,但不是现实——工具多了会稀释上下文、增加选错概率,克制的工具设计才是正确的方向。 工具是放大器,不区分好结果和坏结果。说错话是误导,执行错了可能是不可逆的。Agent有了工具之后,"谁来管它"才从哲学问题变成了工程问题。

Agent的手:工具调用是什么

信息图

系列一的前几篇讲清楚了Agent是什么、怎么理解它的主动性、怎么迈出使用的第一步。 但有一个更基础的问题一直没有正面回答:

Agent为什么能"做事",而不只是"说话"?

这篇来回答这个问题。


NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。



ChatGPT和Agent之间的那道墙

举一个最简单的例子。

你问ChatGPT:“帮我给张三发一封会议邀请邮件。”

它会给你写一封措辞得体的邮件,格式规范,内容完整。然后你需要自己打开邮件客户端,复制粘贴,点击发送。

你对OpenClaw说同样一句话。

几秒钟后,邮件发出去了。你什么都没做。

这两件事之间的差距,不是模型能力的差距,不是智商的差距。 是一道结构性的墙:语言模型的输出永远是文字,而文字本身不会触发任何真实世界的变化。

ChatGPT生成了邮件内容,但它没有办法打开你的邮件客户端、填写收件人、点击发送。它的能力边界就是文字的边界。

Agent打破了这道墙。打破它的方式,叫做工具调用。


工具调用是什么

工具的本质,是一个有名字、有描述、有参数规范的函数接口。

听起来抽象,用例子来说。一个"发送邮件"的工具,长这样:

  • 名字:send_email
  • 描述:向指定收件人发送一封邮件
  • 参数:收件人地址、邮件主题、邮件正文

AI拿到这个工具描述之后,当它判断当前任务需要发邮件,它就会生成一个调用指令:调用send_email,收件人填zhangsan@company.com,主题填"会议邀请",正文填它刚才生成的内容。

这个调用指令被执行,邮件真的发出去了。

所以工具调用的完整链路是这样的:

理解任务 → 判断需要哪个工具 → 生成调用参数 → 执行工具 → 处理返回结果 → 继续推理下一步

这个循环可以跑很多轮。一个稍微复杂的任务,Agent可能要调用十几次工具才能完成。每一次调用的结果,都会成为下一步推理的输入。

AI做的事,是判断和决策:什么时候调用、调用哪个、传什么参数。 真正执行的是工具本身,是代码,是外部服务。AI是大脑,工具是手。


工具的三个层次

市面上Agent工具的种类繁多,但归根到底可以分成三个层次。

第一层:系统级工具。

直接操作计算机——读文件、写文件、执行命令行、控制浏览器。

这是Agent能"动手"的基础。有了这层工具,Agent就可以操作你电脑上的任何东西:读取文档、修改代码、打开网页、下载文件。

这也是风险最集中的地方。系统级权限意味着Agent的操作和你亲自操作没有本质区别——你能做的,它也能做;你做错了会有的后果,它做错了同样会有。

第二层:服务级工具。

调用外部API——查天气、发邮件、搜索网页、操作日历、读写数据库。

Agent通过这层工具接入真实世界的信息流和服务。这让Agent不再局限于你本地的文件和程序,而是可以和互联网上的任何服务交互。

第三层:Agent级工具。

调用另一个Agent。

当任务足够复杂,一个Agent搞不定,可以把任务拆解,分发给多个专门的子Agent分别执行,再把结果汇总。这是多Agent协作架构的基础,也是当前Agent能力边界扩展最快的方向。


工具越多越好吗

直觉上,工具越多,Agent能做的事越多,应该越好。

现实不完全是。

每一个工具,在被加载进Agent的时候,它的名字和描述都要占用上下文窗口。工具越多,能留给真正的任务内容和推理过程的空间就越少。更重要的是,工具一多,Agent在"选哪个工具"这件事上的判断难度也会上升——选项越多,选错的概率越高。

OpenClaw的设计哲学在这件事上给出了一个极端但有说服力的答案:4个核心工具,Read、Write、Edit、Bash,撑起了几乎所有操作系统级别的任务。

创始人Peter Steinberger的原话很直接:CLI才是AI连接世界的终极接口。你能用命令行做的事,Agent就能做。不需要为每个服务单独造一个工具,Bash就够了。

这不是功能缺失,是刻意克制。好的工具设计的核心不是堆砌,而是用最少的工具覆盖最大的任务范围。


工具带来的新风险

工具是Agent能力的放大器。它让Agent从"会说"变成了"会做"。

但放大器不区分好结果和坏结果。

语言模型说错了,最坏的情况是误导你。Agent用工具执行错了,后果可能是不可逆的——发出去的邮件收不回来,删掉的文件可能找不回来,提交出去的代码已经在跑了。

这是Agent和聊天机器人在本质上最重要的区别,也是使用Agent需要建立的最基本的认知:它不只是在帮你想,它在帮你做。帮你做的事,有真实的后果。

正因为如此,“谁来管它"这个问题,在Agent有了工具之后,才从一个哲学问题变成了一个工程问题。

工具赋予了Agent行动力。行动力带来了价值,也带来了责任。这两件事永远是一体的。这也正是我一直在研究的课题。

一句话总结

Agent之所以能"做事"而不只是"说话”,是因为工具调用打破了语言模型只能输出文字的结构性限制——AI是判断和决策的大脑,工具是真正执行的手,两者缺一不可,而工具越多越好的直觉是错的,克制的工具设计才能让Agent真正好用,代价是工具赋予了行动力、也带来了不可逆的风险。


我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025