📌 TL;DR: 付了$200,还是提心吊胆——AI计费最大的问题不是贵,是不可预期。包月解决了费用上限,但没有解决计划问题:用户无法围绕一个不可预期的资源设计工作流。 上下文雪球、MCP工具隐性注入、多Agent并行各烧各的——三层叠加,消耗可以比预想快10倍、20倍,而用户毫无感知。有团队记录显示一个月成本暴涨122倍,不是用法变了,是工具内部变了。 如果互联网当年按比特收费,没有人敢放开用。Token就是AI时代的比特——计费单位是机器语言,不是人的工作语言。这条语义鸿沟没有填平,不透明和不可预期就会永远存在。 行业需要找到自己的"流量套餐":任务级定价,或者消耗可视化+预算硬边界。在那个答案到来之前,至少先搞清楚:你的钱烧在哪里。

付了$200选了超大桶,还是提心吊胆|如果互联网按比特收费,你还敢上网吗

信息图

有人付了$200,用了19分钟,5小时额度见底。

不是他在做什么特别复杂的事。就是正常用Claude Code写代码,像往常一样。

然后系统告诉他:你的额度用完了。

他坐在那里,不知道该怎么想。钱付了,账单清清楚楚——$200,白纸黑字。但他不知道这19分钟里发生了什么,不知道下次会不会更快,不知道下一个不那么着急的项目,他还应不应该用,是不是应该把token留给最重要的项目。

这种感觉不是愤怒,是一种更难受的东西:提心吊胆。


NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。

* * *

账单清楚,但你始终稀里糊涂

这是AI计费目前最核心的矛盾。

不是贵。贵可以接受,贵意味着有价值。

不可预期。你不知道一个任务会烧多少,不知道今天的额度能撑多久,不知道在最需要AI的那个时刻,它还在不在。

包月看起来解决了这个问题,但其实没有。包月解决的是费用上限——你最多花这么多。但它没有解决计划问题——你无法围绕一个不可预期的资源去设计工作流,无法告诉团队"我们有多少AI算力可以用",无法在项目开始前估算成本。

钱的数字是清楚的。但钱能买到什么,你始终稀里糊涂。


你不知道钱烧在哪里,因为消耗是隐形的

让我们看看那19分钟里可能发生了什么。

第一层:上下文雪球。

Claude Code为了保持对话连续性,每次交互都会完整加载所有历史对话和已读取的文件。对话越久,每次请求携带的Token越多——像滚雪球一样,越滚越大。

更讽刺的是,当上下文超过一定长度,模型开始"降智"——遗忘之前的指令,逻辑开始混乱。你花了更多的钱,得到了更差的结果。

第二层:MCP工具的隐性注入。

如果你装了多个MCP服务器,每个工具的描述都会被注入到上下文里。还没开始干活,光是工具描述就可能吃掉10%的上下文窗口。这笔钱花出去了,你毫无感知。

第三层:多Agent并行各烧各的。

Agent Teams让多个Agent同时跑,每个Agent有独立的上下文窗口,独立消耗额度。一个任务同时开了5个Agent,就是5倍的消耗速度。

这三层叠加在一起,额度消耗速度可以比你预想的快10倍、20倍,甚至更多。有团队记录显示,从2月到3月,他们的估算成本从345美元飙升至42121美元——涨了122倍。不是因为他们用法变了,是因为工具内部发生了变化,而他们毫不知情。


如果互联网当年按比特收费

想象另一个平行世界:互联网从一开始就按比特收费。

你打开一个网页,不知道这个页面有多少比特。你不知道图片会不会自动加载,不知道视频会不会自动播放,不知道广告算不算你的流量。每次点击之前,你都要掂量一下——这次会烧多少钱?

你还敢放开用吗?

互联网没有走这条路。它选择了包月带宽、流量套餐、固定费率——计费单位是人能理解的语言,用户知道自己的边界在哪里,才敢放开用,才有了后来的一切。

现在AI按Token收费,本质上就是按比特收费。Token是机器的计量单位,不是人的工作单位。人理解"完成一次代码审查"、“跑完一个招聘流程”、“生成一份竞品报告”,但完全无法预感这些任务会烧多少Token。

计费单位和业务单位之间,存在一条巨大的语义鸿沟。

这条鸿沟没有填平,不透明和不可预期就会永远存在。用户就会永远提心吊胆。


行业需要找到自己的"流量套餐"

真正解决这个问题,方向有两个。

方向一:任务级定价。

不按Token收费,按任务类型和复杂度定价——完成一次代码审查收多少钱,跑一个招聘流程收多少钱,生成一份竞品报告收多少钱。用户在启动任务前就知道这次花多少。

这其实就是"流程即产品、结果即收费"的计费逻辑。在应用层,已经有团队在这个方向上做——招聘Agent按招到人收费,购物Skill按成功下单收费。但在基础设施层,还没有人做到这一点。

方向二:消耗可视化+预算硬边界。

不改变Token计费,但给用户一个实时的、任务粒度的消耗仪表盘——这个任务烧了多少,预计还需要多少,当前额度还能跑几个类似任务。同时允许用户设置硬性预算边界:超过就停,不是发警告,是真的停。

目前Anthropic的做法更接近事后通知,而不是事前约束。用户看到额度见底,任务往往已经跑完一半了。

这两个方向,行业都还在摸索。在这个问题被真正解决之前,提心吊胆是每个重度用户的日常。


在行业解决之前,你现在能做三件事

等行业找到答案需要时间。但有三件事,现在就可以做:

一、任务做完就开新会话。

不要让一个会话无限延伸。每次新任务开新对话,上下文雪球就不会滚起来。这是最直接、最有效的消耗控制手段。

二、给自己设一个心理预算,然后匹配任务粒度。

在开始一个任务之前,先想清楚:这个任务值多少钱?如果值$5,就不要用Opus跑;如果值$50,用最好的模型也无妨。把任务价值和消耗预期对应起来,而不是无差别地往里投。

三、克制工具数量。

MCP工具越多,每次调用的基础消耗越高。只保留真正在用的工具,定期清理不常用的MCP服务器。工具是放大器,不区分好消耗和坏消耗。


写在最后

$200一个月,19分钟见底。

这不是一个关于贵不贵的故事。是一个关于信息不对称的故事——账单数字清清楚楚,但用户对自己的消耗始终稀里糊涂,始终在提心吊胆里使用一个本来应该让自己更有掌控感的工具。

AI行业刚刚开始,相信这个问题能够得到合理解决。

在那个答案到来之前,先学着估算:你的钱会烧在哪里。


我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025