你的龙虾为什么总在关键时刻掉链子

你有没有过这种体验:
把一个任务交给龙虾,前几步干得很好,然后突然跑偏了,等你发现的时候它已经在错误的方向上走了很远;
或者你上周告诉它的偏好,这周它完全不记得了;
或者你给它装了一堆工具,它偏偏选了一个最不该选的。
你怀疑是模型不够强,或者自己没用好。
但事实是:这三种情况,是所有龙虾都会遇到的结构性问题,不是你的问题,也不只是模型的问题。
港大黄超在中关村论坛上,把这三个问题归纳成三个词:planning、memory、skill。
理解这三层,你就能预判龙虾会在哪里出问题——能预判,就能绕开。
* * *NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。
第一层:规划——任务越长,越容易跑偏
龙虾的规划方式,和人类不一样。
人做一个复杂任务,会先在脑子里过一遍整体框架,再开始执行。
龙虾不是这样的。传统语言模型本质上是"近视"的——它们擅长回应眼前的东西,但不是为维持长期目标或根据变化情况调整策略而设计的。
它更像是每走一步看一步,用当下能看到的信息决定下一个动作。
短任务问题不大,五步以内的事,它通常能干得不错。但任务一旦变长,麻烦就来了。
这里有一个残酷的数字:如果龙虾在每个步骤上有85%的准确率——这听起来已经很高了——一个十步的工作流,整体成功率只有大约20%。
更要命的是,规划出错往往是沉默的。当龙虾遇到模糊之处——同一条指令有多种合理解读——它不会停下来问你,它会选一种解读(通常是第一个或最常见的那个)然后继续走。等你意识到它跑偏了,它已经在错误的方向上走了很多步,上下文已经被污染了。
所以:
不要把大任务一次性扔给它。
把任务控制在三到五步以内,更长的工作流需要拆成多个阶段,每个阶段完成后做明确的交接确认。
在关键节点主动停下来检查,而不是等它跑完再看结果——出了问题越早发现越好。
如果任务涉及你的专业领域,把你的领域知识提前告诉它,给它的规划提供依据,而不是让它从零猜测。
第二层:记忆——它不是忘了,是取不准
龙虾"忘记"你告诉它的事,不是因为没有存下来,而是因为在需要的时候取不准。
黄超的原话是:存不难,取才难。
这背后有两个结构性的原因。
第一个是上下文窗口的物理限制。长任务会超出token限制,龙虾开始遗忘早期的决定。第七步可能会和第二步矛盾,因为当初的上下文已经被截断了。人能在脑子里维持整个任务的全局模型,龙虾在上下文窗口被填满之后会失去连贯性。
第二个是记忆膨胀的问题。任务复杂度一上升,需要记住的东西就急剧增多——你的工作偏好、项目背景、上次的决定、各种约束条件。研究显示,Agent在执行35分钟后都会经历成功率下降,而任务时长翻倍会让失败率翻四倍。不是模型变笨了,是记忆系统在超载。
多只龙虾协作时,这个问题更严重。一只龙虾的记忆就已经难以管理,多只龙虾同时工作产生的上下文,会以指数级速度膨胀。
所以:
不要指望它自动记住所有重要的事。
把你最核心的判断标准、工作偏好、长期规则,显式地写在每次对话的开头,而不是等它自己去回忆——主动喂给它,比期待它自动取出来可靠得多。
对不同项目保持独立的对话上下文,不要在同一个对话里混放多个不相关的任务。
在它做错的时候解释为什么错,而不是直接让它重做——每一次解释,都是在帮它建立更准确的判断依据。
第三层:工具选择——数量多了,反而容易选错
龙虾接的工具越多,它面临的选择就越复杂,选错的概率就越高。
很多人的直觉是:工具越多越好,覆盖的场景越全,龙虾能干的事越多。
这个直觉在工具数量少的时候是对的,但超过一定数量之后会反转。
常见的失败模式之一,就是开发者把大量工具堆进去,期待Agent自己找到正确的那个——
结果是协调成本超过了工具带来的好处。
黄超的判断是:现在skill生态里看似选择很多,但高质量的skill其实比较少。低质量的skill会直接拖垮任务完成率——它可能给出错误的输出,可能中途报错,可能触发一系列不该发生的操作。
还有一个更隐蔽的风险:很多Agent失败不是因为模型不行,而是因为工具层的问题——连接器不稳定,或者工具返回的数据格式出乎意料,龙虾没有能力从这些错误里优雅地恢复。它会卡在那里,或者更糟,用错误的数据继续往下走。
所以:
克制地接工具,只装真正用得上的,而不是"先装上再说"。
优先使用经过验证、口碑稳定的skill,对来路不明的skill保持警惕——它不只是可能干不好,还可能在执行过程中做你不希望它做的事。
如果你有多个工具能完成类似的功能,主动告诉龙虾在什么情况下用哪个,不要让它自己猜。
知道它在哪里会出问题,才能真正用好它
这三个问题——规划跑偏、记忆失准、工具选错——是现阶段所有Agent系统的共同局限,不只是你的龙虾,是所有人的龙虾。它们正在被解决,技术在进步,只是需要时间。
但在它们被完全解决之前,你对这三层的理解,是你能否养好龙虾的关键所在。
大多数人遇到龙虾掉链子,第一反应是换个模型,或者换个工具,或者干脆放弃。但龙虾掉链子的地方是可以预测的,可以预测,就可以在那个地方多给它一点支撑——把大任务拆小,主动喂给它关键信息,克制地管理它的工具箱。
龙虾的上限不只取决于模型有多强,也取决于你有没有把它放在一个它能够正常发挥的环境里。
写在最后
黄超在中关村论坛最后用一个词描述未来十二个月的趋势:生态。
他说的生态,包括把所有相关的技术、工具、软件,都变成Agent Native的模式。这需要整个行业一起努力,需要时间。
在等待的过程中,有一件事是你现在就能做的:搞清楚龙虾在哪里容易掉链子,想办法做好预案。
我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
「塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。
