AI计费的演进-从黑盒走向结果导向丨Token经济学

一个朋友他们公司的Agent每天跑几十万次调用,他想算一算一个月到底要花多少钱。这个问题听起来很基础——Token数量乘以单价乘以调用次数,不就完了吗?
他打开了Anthropic的价格页,然后卡住了。
session runtime按每会话小时收费,cache write和cache hit各有不同的乘数,和Token根本不在一个维度上。他再去看OpenAI,web search按千次调用收费,container按session时长收费,file search storage按GB/天收费,regional processing再叠一层百分之十。Google Gemini稍微收敛一些,但grounding和context caching也各自独立计价。
三家价格页翻完,他跟我说:我不是看不懂数学,我是根本不知道这些维度是什么意思,更不知道我的任务会触发哪些计费项。
这不是一个人的困惑。这是整个行业正在经历的一场结构性迁移——AI的计费对象,正在悄悄改变。
* * *NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。
Token之外,账单已经长出了新的维度
在过去,AI计费的逻辑很简单:你输入多少Token,输出多少Token,按单价乘。规则粗糙,但透明。你多说一句话,大概知道会多花多少钱。
现在这个逻辑已经失效了。
上海期智研究院研究员李彪指出:企业现在购买的,是"一段被组织过的智能劳动",裸模型只是其中的一小部分。同一张账单上,模型推理、搜索、检索、缓存、上下文驻留、运行时、容器、席位,可能同时出现。
这不是某一家厂商的特殊设计,而是整个行业的演进方向。Agent时代,模型不再是孤立运行的——它要搜索、要存储状态、要调用工具、要在后台持续运行。每一个动作,都可能是一个独立的计费项。
账单从一列数字,变成了一张多维的对账表。
对企业采购来说,这意味着原来"谁的Token更便宜"这个比较轴失效了——你得同时理解search成本、cache命中率、runtime时长、regional溢价,才能算出在你的工作负载下,谁的综合成本更低。这已经是一个专业问题,不是一道简单的算术题。
对个人用户来说,情况更难。企业至少有人专门盯着账单,有能力去学这些维度的含义。个人用户通常没有。
现在这个阶段,黑盒在变厚
我们之前聊过Token计费的双重黑盒:第一层,计费数量对用户不透明,规则可以静默调整;第二层,同等Token消耗背后的推理深度和算力规格对用户不可知,只能靠结果猜测。
现在,黑盒不只是两层了。
计费维度裂变之后,每一个新的维度都是一个新的黑盒。你不知道这次调用触发了哪些搜索、缓存命中了几次、session运行了多少分钟。你看到的只是最后那个数字——账单总额。
更麻烦的是,这些维度之间还会互相叠加。缓存命中率影响Token成本,runtime时长影响session费用,工具调用次数影响search成本——它们在同一张账单上互相影响,没有任何一个维度是独立可控的。
这就是为什么现在这个过渡阶段特别难受。
按Token计费的时代,规则虽然不完全透明,但至少是单一的。你可以学会一套逻辑,大致掌握自己的支出。现在,你要同时掌握五六套逻辑,每套都不完全透明,还要理解它们之间的相互作用。
对大多数用户来说,这不现实。结果就是:你付钱,但你不知道付的是什么;你超支,但你不知道是哪里超的。
按结果计费,是更透明的终点
好消息是,这不是终点。
计费方式的演进有一个内在逻辑:从按资源计费,到按过程计费,最终走向按结果计费。现在的多维计费,是从第一阶段走向第三阶段的中间状态——混乱,但有方向。
按结果计费的逻辑,是目前所有计费方式里最透明的一种。
你付钱买"事情办成",不是买"模型转了多少圈"。供应商赚钱靠"真正交付结果",不是靠"用户多发了几条消息"。双方的利益方向第一次真正对齐。Intercom已经在做了——每个有效解决的客服问题,收费$0.99,白纸黑字定义什么算"有效解决"。这个方向是对的。
对用户来说,按结果计费还解决了一个核心焦虑:你知道自己在买什么。 不需要理解runtime是什么,不需要知道grounding怎么计算,你只需要知道:这件事办成了,花了多少钱,值不值。
但这是双刃剑
按结果计费对用户是好事,对行业的影响却没有那么简单。
理想的情况是这样的:按结果计费之后,任务会自然分层。复杂的推理任务,只有顶级模型能稳定交付,用户愿意为此付更高的价格。简单的高频任务,小模型成功率已经足够高,成本更低,利润反而更好。不同的模型找到自己性价比最高的那个位置,不再是单纯的价格战。
这有点像社会分工的逻辑。一个健康的社会里,不同的人各有自己不可替代的位置,不是由单纯的能力高低或者价格高低来决定一切,而是每个人找到自己对需求方来说性价比最高的那个价值点。赢家通吃不是常态,充分分工才是。
如果不按结果计费,只按能力和价格竞争,小模型只有一条路:持续压价。压到负毛利,压到退出市场。这是负向反馈,对行业没有好处。按结果计费,至少在理论上打开了另一种可能。
但这里有一个真实的风险,值得正视。
人类社会里,不同的人能各自找到位置,部分原因是迁移成本高。换一个供应商、换一个团队、换一个合作方,要花时间、花精力、承担关系风险。这个摩擦力,客观上保护了分工的稳定性。
AI的迁移成本极低。换一个模型,可能只需要改一行配置。用户可以在一秒钟内从A切换到B,再切回A。这让"任务分层、各就各位"的理想面临真实的压力——一旦某个模型在某类任务上建立了微弱的优势,用户的快速迁移会把这个优势迅速放大,推向赢家通吃。
这场战争的结局,很大程度上取决于一个问题:“结果"的定义权,落在谁手里。
如果是平台方自己定义什么算"有效解决”、什么算"任务完成",那裁判和运动员是同一个人,用对自己有利的方式划定边界,垄断风险是真实的。如果买方能拿回这个定义权——自己说清楚什么叫完成、自己验证结果——竞争才有可能真正展开。
写在最后
我们不知道这场战争最终谁赢。按结果计费是更合理的方向,但从现在到那里,还有一段混乱的过渡期要熬。
在这段过渡期里,账单会越来越复杂,黑盒会越来越厚。大多数用户没有能力,也没有时间去搞清楚每一个计费维度的含义。
但有一件事是可以做到的:知道自己在哪里是盲视的。
你不需要成为计费专家,但你需要知道——当账单超出预期的时候,你有没有能力去问出那个正确的问题。不是"为什么这么贵",而是"钱花在哪个维度上了,那个维度值这个价吗"。
这是判断力,不是技术知识。
在AI把越来越多的过程变成黑盒的时代,保持这种判断力,比弄懂任何一个具体的计费规则都重要。
我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
「塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。
