📌 TL;DR: 四月初，有用户反映Claude Code的Max计划200美元在1.5小时内耗尽。排查之后发现：缓存TTL从1小时静默降至5分钟，每次停下超过5分钟就触发完整上下文重建，消耗暴增5-12倍。关闭遥测的用户因为无法拉取最新策略，受影响更重。Anthropic回应是架构耦合问题，非刻意为之。真正让人不舒服的不是多花了钱，是规则变了你不知道。你在按旧规则做计划，底层已经换了一套算法。这暴露的是Token计费的第一层黑盒：数量规则对用户不透明，可以静默调整。但还有第二层更根本的黑盒：同样的Token消耗，背后调用的是什么推理深度、什么算力规格，用户完全不知道。感觉回答质量下滑，是降智、是算力压缩、还是缓存复用？从用户侧看结果一样，原因在黑盒里。单价透明，价值不透明——这是整个行业Token计费模型的结构性缺陷。在行业找到更好的计费语言之前，用户能做的是：把缓存当关键变量主动管理，定期看消耗结构而不只是看总量，把Token消耗当需要观察的系统参数而不是被动承受的账单。善意和透明是两件事，这个系统可能没有恶意，但它对用户不透明——这件事值得认真对待。

Token计费的数量黑盒与质量黑盒｜你买的Token，买到了什么

信息图

三月底开始，GitHub和Reddit上涌现大量投诉。

Claude Code Max 20x计划，200美元一个月，5小时使用窗口之前可以支撑一整天的开发工作，但用户报告额度在不到90分钟内耗尽，有人更极端，19分钟见底。

Anthropic后来在Reddit回应：我们知道用户触达使用上限的速度远超预期，正在调查，这是团队最高优先级。

帖子下面的回复很快堆满。不是在嘲笑，是在认领——“我也是”、“我以为是我用法有问题”、“我以为是模型变笨了”。

不是用法有问题，也不是模型变笨。

问题的根源是缓存悄悄变了。

NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。

* * *

到底发生了什么

事情的经过，有人做了完整的复盘。

从119866条API调用日志里，可以清晰看到一条时间线：2月，缓存生存时间（TTL）是1小时，缓存浪费率只有1.1%；3月6日前后，TTL静默回退到5分钟，浪费率飙升到25.9%。

TTL是什么意思？就是缓存能存多久。

1小时TTL，意味着你在一个会话里停下来喝杯水、想一想，回来继续，缓存还在，之前积累的上下文不需要重新建立。5分钟TTL，意味着你稍微停一下，超过5分钟，缓存过期，完整的上下文重建从头来一遍——所有Token重新计费。

Claude Code里跑一个长会话，上下文动辄几十万Token。重建一次的代价，是实实在在的。

社区里还流传着另一个细节：TTL的变化和遥测设置有关。关闭遥测的用户，无法通过客户端拉取最新的缓存策略，停留在旧的5分钟设置上。也就是说，出于隐私考虑关掉了数据收集的用户，在不知情的情况下承担了更高的使用成本。

Anthropic后来回应了：这是架构耦合问题，不是刻意为之。

这个解释可能是真的。但它解释不了另一件事：整个过程里，没有任何一条用户可见的通知说明规则变了。

让人真正不舒服的，不是多花了钱

多花钱是可以接受的。用得多，付得多，逻辑通顺。

真正让人不舒服的，是你按照旧规则在做计划，底层已经换了一套算法，你不知道。

你以为你知道自己在用多少。你不知道。

你以为你知道停下来休息不会让成本倍增。你不知道。

你以为你关掉遥测只是放弃了数据分享。你不知道这个选择还有另一个代价。

这不是"多花了钱"的问题。是你在一个自己看不透的系统里做决策，而系统的规则在你不知情的情况下发生了变化。用户能做的，只有在账单异常之后，倒推发生了什么。

两层黑盒

Claude Code这次事件，掀开了Token计费黑盒的一角。这个黑盒，其实有两层。

第一层是数量黑盒。

Token怎么数，缓存规则是什么，批量处理怎么折算——这些规则写在文档里，但文档是静态的，实际运行中的规则可以动态调整，而调整不一定会告诉你。这次Claude Code事件暴露的就是这一层：规则变了，账单变了，用户靠倒查日志才发现。

第二层是质量黑盒。

这一层更难看见，也更根本。

同样的Token消耗，背后调用的是什么模型、什么推理深度、什么算力规格——用户完全不知道。你感觉这次回答质量下降了，是模型被降智了？是推理预算被压缩了？是缓存命中导致的输出复用？还是你的问题本来就难？

这四个原因，从用户侧看，结果是完全一样的：感觉不对劲，但说不清哪里不对劲。

单价是透明的。每百万Token多少钱，明码标价。但这个价格买到的智力质量是波动的，波动的原因在黑盒里，用户只能靠结果猜。

两层黑盒叠加，意味着用户面对的是一个双重不确定的系统：不知道花了多少，也不知道花出去的买到了什么。

这不是Anthropic一家的问题。这是整个AI行业Token计费模型的结构性缺陷。所有按Token计费的厂商，都面对同一个根本性的张力：Token是机器的计量单位，不是用户的业务单位。中间的换算关系，用户穿透不了。

用户能做什么

不是让你停止用，也不是让你不信任这些工具。

但在行业找到更好的计费规则之前，有几件事值得放进意识里。

缓存是关键变量，不是背景噪声。 你的Token消耗里，缓存命中率可能是影响最大、最不直观的那个因素。一个会话断开多久、任务切换频率多高，都在影响这个数字。高频使用的场景，值得刻意设计缓存效率。

定期看消耗结构，不只是看总量。 总量告诉你花了多少，结构告诉你花在哪里。cache_creation、cache_read、input、output各占多少——这四个数字的比例，比总量更能说明问题。出现异常，往往先在结构里显现，不是先在账单里显现。

把Token消耗当作需要主动管理的变量。 不是被动承受的账单，是可以被观察、被调整的系统参数。这个心态转变，是在不透明系统里能做到的最务实的事。

写在最后

行业终究要走向更好的计费规则。

任务级定价，或者消耗可视化加预算硬边界——某种能让用户真正理解"我买到了什么"的方式。那才是Token计费真正成熟的标志。

在那一天到来之前，我们都在一个计费规则不完全透明的系统里使用这些工具。

不是说这个系统是恶意的。Anthropic的回应大概是真实的——架构问题，不是刻意惩罚用户。但善意和透明是两件事。系统可以没有恶意，同时对用户不透明。

这次Claude Code事件值得认真对待，不是因为它改变了什么，而是因为它让一件一直存在的事情变得可见了：

你在用Token买智力，但你不知道买到了多少，也不知道规则什么时候会变。

问清楚这两件事，是我们在这个阶段能为自己做的最重要的事之一。

我是「AioGeoLab」主理人塔迪Tardi，AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室，目前有两个主要研究方向：
「塔迪GEO判断工程」是基于GEO的价值SEO化，在AI从“说”到“做”的重要跃迁阶段，试图回答，如何让AI敢于行动、不因为责任问题而畏手畏脚，而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践，深层共鸣的探索。不是用AI解读经典，也不是用经典指导AI。这是一场跨越2500年的对话，在算法与古老智慧之间，照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。

Token计费的数量黑盒与质量黑盒｜你买的Token，买到了什么#

到底发生了什么#

让人真正不舒服的，不是多花了钱#

两层黑盒#

用户能做什么#

写在最后#