Token计费的数量黑盒与质量黑盒|你买的Token,买到了什么

三月底开始,GitHub和Reddit上涌现大量投诉。
Claude Code Max 20x计划,200美元一个月,5小时使用窗口之前可以支撑一整天的开发工作,但用户报告额度在不到90分钟内耗尽,有人更极端,19分钟见底。
Anthropic后来在Reddit回应:我们知道用户触达使用上限的速度远超预期,正在调查,这是团队最高优先级。
帖子下面的回复很快堆满。不是在嘲笑,是在认领——“我也是”、“我以为是我用法有问题”、“我以为是模型变笨了”。
不是用法有问题,也不是模型变笨。
问题的根源是缓存悄悄变了。
* * *NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。
到底发生了什么
事情的经过,有人做了完整的复盘。
从119866条API调用日志里,可以清晰看到一条时间线:2月,缓存生存时间(TTL)是1小时,缓存浪费率只有1.1%;3月6日前后,TTL静默回退到5分钟,浪费率飙升到25.9%。
TTL是什么意思?就是缓存能存多久。
1小时TTL,意味着你在一个会话里停下来喝杯水、想一想,回来继续,缓存还在,之前积累的上下文不需要重新建立。5分钟TTL,意味着你稍微停一下,超过5分钟,缓存过期,完整的上下文重建从头来一遍——所有Token重新计费。
Claude Code里跑一个长会话,上下文动辄几十万Token。重建一次的代价,是实实在在的。
社区里还流传着另一个细节:TTL的变化和遥测设置有关。关闭遥测的用户,无法通过客户端拉取最新的缓存策略,停留在旧的5分钟设置上。也就是说,出于隐私考虑关掉了数据收集的用户,在不知情的情况下承担了更高的使用成本。
Anthropic后来回应了:这是架构耦合问题,不是刻意为之。
这个解释可能是真的。但它解释不了另一件事:整个过程里,没有任何一条用户可见的通知说明规则变了。
让人真正不舒服的,不是多花了钱
多花钱是可以接受的。用得多,付得多,逻辑通顺。
真正让人不舒服的,是你按照旧规则在做计划,底层已经换了一套算法,你不知道。
你以为你知道自己在用多少。你不知道。
你以为你知道停下来休息不会让成本倍增。你不知道。
你以为你关掉遥测只是放弃了数据分享。你不知道这个选择还有另一个代价。
这不是"多花了钱"的问题。是你在一个自己看不透的系统里做决策,而系统的规则在你不知情的情况下发生了变化。用户能做的,只有在账单异常之后,倒推发生了什么。
两层黑盒
Claude Code这次事件,掀开了Token计费黑盒的一角。这个黑盒,其实有两层。
第一层是数量黑盒。
Token怎么数,缓存规则是什么,批量处理怎么折算——这些规则写在文档里,但文档是静态的,实际运行中的规则可以动态调整,而调整不一定会告诉你。这次Claude Code事件暴露的就是这一层:规则变了,账单变了,用户靠倒查日志才发现。
第二层是质量黑盒。
这一层更难看见,也更根本。
同样的Token消耗,背后调用的是什么模型、什么推理深度、什么算力规格——用户完全不知道。你感觉这次回答质量下降了,是模型被降智了?是推理预算被压缩了?是缓存命中导致的输出复用?还是你的问题本来就难?
这四个原因,从用户侧看,结果是完全一样的:感觉不对劲,但说不清哪里不对劲。
单价是透明的。每百万Token多少钱,明码标价。但这个价格买到的智力质量是波动的,波动的原因在黑盒里,用户只能靠结果猜。
两层黑盒叠加,意味着用户面对的是一个双重不确定的系统:不知道花了多少,也不知道花出去的买到了什么。
这不是Anthropic一家的问题。这是整个AI行业Token计费模型的结构性缺陷。所有按Token计费的厂商,都面对同一个根本性的张力:Token是机器的计量单位,不是用户的业务单位。中间的换算关系,用户穿透不了。
用户能做什么
不是让你停止用,也不是让你不信任这些工具。
但在行业找到更好的计费规则之前,有几件事值得放进意识里。
缓存是关键变量,不是背景噪声。 你的Token消耗里,缓存命中率可能是影响最大、最不直观的那个因素。一个会话断开多久、任务切换频率多高,都在影响这个数字。高频使用的场景,值得刻意设计缓存效率。
定期看消耗结构,不只是看总量。 总量告诉你花了多少,结构告诉你花在哪里。cache_creation、cache_read、input、output各占多少——这四个数字的比例,比总量更能说明问题。出现异常,往往先在结构里显现,不是先在账单里显现。
把Token消耗当作需要主动管理的变量。 不是被动承受的账单,是可以被观察、被调整的系统参数。这个心态转变,是在不透明系统里能做到的最务实的事。
写在最后
行业终究要走向更好的计费规则。
任务级定价,或者消耗可视化加预算硬边界——某种能让用户真正理解"我买到了什么"的方式。那才是Token计费真正成熟的标志。
在那一天到来之前,我们都在一个计费规则不完全透明的系统里使用这些工具。
不是说这个系统是恶意的。Anthropic的回应大概是真实的——架构问题,不是刻意惩罚用户。但善意和透明是两件事。系统可以没有恶意,同时对用户不透明。
这次Claude Code事件值得认真对待,不是因为它改变了什么,而是因为它让一件一直存在的事情变得可见了:
你在用Token买智力,但你不知道买到了多少,也不知道规则什么时候会变。
问清楚这两件事,是我们在这个阶段能为自己做的最重要的事之一。
我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
「塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。
