tgje-152-fde-discovery-three-conversations-four-diagnoses-three-criteria

发现阶段:FDE进场之后的三件事丨三类对话、四类现场诊断、三个选点

发现阶段:FDE进场之后的三件事丨三类对话、四类现场诊断、三个选点 上一篇说,发现阶段结束的标志是一句双方都认可的问题定义——可以说清楚,可以被衡量。 这篇讲怎么把客户一开始说的那句模糊的话,变成那句清晰的定义。 FDE进场之后,有三件事要同时推进:翻译需求、诊断现场、选定第一个落地点。这三件事不是顺序完成的,是在同一段时间里交织进行的。把它们分开讲,是为了说清楚每件事的逻辑;实际操作里,你和用户对话的同时就在诊断现场,诊断现场的过程里就在筛选落地点。 ...

2026年6月17日 · 11 分钟 · 约 5039 字 · 塔迪Tardi
tgje-151-fde-deployment-map-five-phases

FDE落地地图:AI交付的五个阶段丨从第一次见客户到系统移交,每个阶段做什么

FDE落地地图:AI交付的五个阶段丨从第一次见客户到系统移交,每个阶段做什么 上一篇说到,AI落地失败的根本原因不是模型问题,是交付问题。FDE这个角色,就是专门解决交付问题的。 但"解决交付问题"本身也是一句模糊的话。具体怎么解决?从哪里开始?到哪里算完?中间会遇到什么? 这篇把这些问题的答案画成一张地图。后续每一篇深挖地图上的一个位置,这篇是整个系列的坐标系。 ...

2026年6月16日 · 8 分钟 · 约 3909 字 · 塔迪Tardi
tgje-150-fde-deployment-thinking-for-builders

FDE落地工程:AI时代的落地交付丨当OpenAI花40亿造了一支「落地工程师」队伍,它在解决什么问题?

FDE落地工程:AI时代的落地交付丨当OpenAI花40亿造了一支「落地工程师」队伍,它在解决什么问题? 2026年5月11日,OpenAI宣布成立一家新公司,叫"The Deployment Company",专门做一件事:把工程师派驻到企业里面去。 这家公司的启动资金是40亿美元,投资方包括TPG、高盛、麦肯锡。OpenAI自己出资5亿,保留控制权。同一周,他们收购了一家叫Tomoro的英国AI咨询公司,带过来150名有实战部署经验的工程师。 ...

2026年6月15日 · 7 分钟 · 约 3317 字 · 塔迪Tardi
tgje-149-agent-configuration-is-not-set-and-forget

Agent需要定期校准,不能配置好就不管了丨Agent误解系列

Agent配置好了,就不用管了?丨Agent误解系列 你花了两周时间把Agent配好。提示词反复打磨,工具一个个接入,测试跑通,结果符合预期,开始正式使用。 三个月后,它还在跑。但跑出来的结果开始让你皱眉——输出格式变了,某个工具返回的数据对不上,有几次任务完成了但结果感觉不太对。 配置没动过,哪里出了问题? 买一台洗衣机,装好了插上电,用就行。买一个SaaS软件,装好了配好了,更新是厂商的事,你不用操心底层。 ...

2026年6月14日 · 5 分钟 · 约 2335 字 · 塔迪Tardi
tgje-148-permission-is-blast-radius-not-capability

权限给得越多,Agent就越能干?丨Agent误解系列

权限给得越多,Agent就越能干?丨Agent误解系列 给Agent配权限的时候,大多数人的逻辑很简单:权限越多,它能做的事越多,任务越顺。 这个逻辑没有错。但它漏掉了另一半:权限越多,它出错时能造成的破坏越大。 这两件事不是先后关系,是同一个变量的两个方向。你在往一个方向调的时候,另一个方向同步在动。 NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 ...

2026年6月13日 · 5 分钟 · 约 2462 字 · 塔迪Tardi
tgje-147-automation-does-not-automatically-mean-less-work

自动化程度越高,人越省力?丨Agent误解系列

自动化程度越高,人越省力?丨Agent误解系列 你把一个流程完全交给Agent跑,心里松了一口气:以为这下省事了。 但这个松的感觉,有时候撑不了多久。过了一段时间,你开始想:它跑得对吗?出了问题我能发现吗?这个任务跑完我需不需要检查一遍? 这个担心本身,就是自动化的隐性成本。它不出现在Token账单上,但它真实地消耗着你的注意力。 NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 ...

2026年6月12日 · 5 分钟 · 约 2245 字 · 塔迪Tardi
tgje-146-fix-agent-errors-not-just-prompts

Agent出错了,改提示词就能修复?丨Agent误解系列

Agent出错了,改提示词就能修复?丨Agent误解系列 Agent跑偏了,你本能反应是修改提示词,有时候确实奏效——改完再跑,问题消失了。于是这个动作就固定下来了:出错了,先改提示词。 但有一类出错,提示词改多少遍都没用。不是你没找到正确的表达方式,是问题根本不在那里。 NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 ...

2026年6月11日 · 5 分钟 · 约 2450 字 · 塔迪Tardi
tgje-145-agent-value-is-not-in-the-middle

用Agent,就只是把任务丢给它跑?丨Agent误解系列

用Agent,就只是把任务丢给它跑?丨Agent误解系列 你用Agent执行任务,最关注的是哪段时间? 大多数人的第一反应:执行时间。Agent在跑,我不用动。这个判断没错,但它只说对了一半——省掉的是执行时间,但最重要的那两段时间,大多数人根本没花在上面:启动前的任务设计,和结束后的结果验收。 结果是:Agent跑得很顺,方向是错的;跑完了,好不好也判断不了。 ...

2026年6月10日 · 5 分钟 · 约 2303 字 · 塔迪Tardi
tgje-144-parallel-agents-not-linear-speedup

N个Agent同时跑,效率是单任务的N倍?丨Agent误解系列

N个Agent同时跑,效率是单任务的N倍?丨Agent误解系列 三个Agent同时跑,你心里在算一道乘法账:三倍速度,三倍产出。 一个需要研究竞品、分析用户反馈、起草报告的任务,串行跑完可能要三小时。三个Agent分头跑,理论上压到一小时以内。上下文相互独立是多Agent架构的核心优势——每个Agent有自己的Context窗口,不会互相干扰,也不会因为一个Agent的上下文塞满而拖累其他Agent。 ...

2026年6月9日 · 5 分钟 · 约 2251 字 · 塔迪Tardi
tgje-143-longer-prompt-does-not-mean-better-agent

提示词越详细,Agent跑得越好?丨Agent误解系列

提示词越详细,Agent跑得越好?丨Agent误解系列 提示词写得超详细,Agent还是跑偏了。 你的第一反应几乎是本能的:没说清楚,再加一段。于是你加了背景、加了示例、加了注意事项,改完之后提示词更详细。但是再跑一遍,Agent还是在关键地方出了偏差。 这时候你可能开始怀疑模型——它怎么就是不听? 真正的问题,不在提示词的信息量,在信息放的位置。 NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 ...

2026年6月8日 · 6 分钟 · 约 2629 字 · 塔迪Tardi
tgje-142-tool-calling-is-not-what-you-think

Agent调用工具,跟你用工具是一回事?丨Agent误解系列

Agent调用工具,跟你用工具是一回事?丨Agent误解系列 你给Agent配了十几个工具:发邮件、查日历、读文件、调接口。 配完之后,你可能有一种感觉——它现在"会用"这些工具了。就像你教会了一个助手怎么开软件、怎么找文件,接下来只管分配任务就好。 这个感觉很自然,但它在一个关键地方出了偏差。 你以为的"会用",是你理解的那种会用。Agent那边,发生的是另一件事。 ...

2026年6月7日 · 6 分钟 · 约 2852 字 · 塔迪Tardi
tgje-141-reflection-is-engineered-not-innate

Agent的「反思」不是自省,是你设计出来的一套机制丨Agent误解系列

Agent的「反思」不是自省,是你设计出来的一套机制丨Agent误解系列 “Agent在反思”——这句话听起来很自然。 Reflection这个词本身带着强烈的拟人色彩。加上Chain of Thought让Agent把思考过程写出来,看起来像在逐步推敲;产品界面上那行"正在重新审视……“的提示,更强化了"它在想一想自己做得对不对"的感觉。 ...

2026年6月6日 · 5 分钟 · 约 2451 字 · 塔迪Tardi
tgje-140-completion-is-not-correctness

Agent口中的完成,未必是你期望的完成丨Agent误解系列

Agent口中的完成,未必是你期望的完成丨Agent误解系列 你有没有遇到过:让Agent做了一件事,它告诉你完成了,你打开看——格式完整,内容都在,好像没什么问题。但总觉得哪里不对,最终也确实发现了隐藏着的严重问题。 这个问题有它的根源。 “完成"和"做对”,是两件不同的事。Agent能告诉你前者,但它不知道后者——除非你事先告诉它,“做对"对你来说意味着什么。 ...

2026年6月5日 · 5 分钟 · 约 2246 字 · 塔迪Tardi
tgje-139-hallucination-rate-is-not-agent-reliability

模型幻觉率降了,Agent不一定更可靠丨Agent误解系列

模型幻觉率降了,Agent不一定更可靠丨Agent误解系列 这两年模型迭代飞快,各家厂商也在持续公布幻觉率改善数据。从机制上讲,这个进步是真实的——通过更好的训练方式、更严格的事实核查、提示词层面的干预,模型生成错误内容的概率确实在降低。有研究显示,针对性的提示词干预能把幻觉率从53%压到23%,降幅接近一半。 但这个数字,几乎都是在聊天场景里测出来的。 ...

2026年6月4日 · 4 分钟 · 约 1799 字 · 塔迪Tardi
tgje-138-agent-predicts-not-reasons

Agent看起来在思考,但它其实在做另一件事丨Agent误解系列

Agent看起来在思考,但它其实在做另一件事丨Agent误解系列 把Agent的输出看成"思考的结果",这个感觉不难理解。 它会列出分析步骤,会说"首先考虑……其次……最后得出结论",会在给建议之前先梳理前提条件。用"让我们一步一步来思考"这样的提示词,它输出的过程看起来和人在纸上推导一道题几乎没有区别。加上产品界面上那行"正在思考中……“的提示,整个体验都在暗示:它在思考。 ...

2026年6月3日 · 5 分钟 · 约 2192 字 · 塔迪Tardi
tgje-137-agent-memory-doesnt-grow-automatically

Agent用久了会越来越懂我?这件事不会自动发生丨Agent误解系列

Agent用久了会越来越懂我?这件事不会自动发生丨Agent误解系列 这个期待非常合理,因为它在人际关系里一直成立。 和一个人相处久了,他会记得你的习惯、你的偏好、你说话的方式,甚至你没说出口的顾虑。时间是理解的自然货币——相处越久,积累越多,理解越深。把这个直觉套到Agent上,感觉天经地义。 而且短期内,这个感觉似乎也在被印证:同一次对话里,Agent确实越来越"懂"你——它开始用你习惯的语气,不再问你已经解释过的背景,给出的建议越来越贴合你的需求。 ...

2026年6月2日 · 4 分钟 · 约 1917 字 · 塔迪Tardi
tgje-136-agent-analyzes-you-decide

你是不是也认为,让Agent帮你做决定会更可靠丨Agent误解系列

你是不是也认为,让Agent帮你做决定会更可靠丨Agent误解系列 让Agent帮你做决定会更可靠,这个想法有它合理的来源。 Agent给出的分析质量确实很高——它能快速整合大量信息、列出选项、梳理利弊、标注风险。在很多场景里,照着它说的做,结果也不差。你很自然地会觉得:这不就是在帮我做决定吗? 但这里有一个概念偷换,而且偷换得很隐蔽。 Agent在做的,是高质量的信息处理。它给你的,是"通常情况下大多数人会认为合理的选择"。这和"你这个人在你这个处境下的正确决定",是两件不同的事。 ...

2026年6月1日 · 4 分钟 · 约 1782 字 · 塔迪Tardi
tgje-135-agent-bias-hidden-in-training-data

Agent没有情绪,但它有偏见——只是很难看见丨Agent误解系列

Agent没有情绪,但它有偏见——只是很难看见丨Agent误解系列 因为Agent没有情绪,所以输出更客观,这个直觉有它合理的地方。 Agent确实没有情绪。它不会因为今天睡眠不足而判断失准,不会因为某个候选人和自己的老朋友长得像而打高分,不会因为下午三点精力下滑而在审阅第二十份简历时开始敷衍。 但"没有情绪偏见"和"没有偏见",是两件完全不同的事。 ...

2026年5月31日 · 5 分钟 · 约 2070 字 · 塔迪Tardi
tgje-134-task-structure-mismatch-not-a-prompt-problem

不是你没说清楚,是这类任务天然不适合Agent丨Agent误解系列

不是你没说清楚,是这类任务天然不适合Agent丨Agent误解系列 用了Agent一段时间之后,很多人会形成一个固定动作:任务跑不好,回头改提示词。 这个逻辑有它成立的地方。提示词写得更清楚,Agent确实经常跑得更好。于是"描述清楚"慢慢成了一种万能解——Agent出问题,先检查自己有没有说清楚,再考虑别的。 但有一类失败,不管你怎么打磨描述都解决不了。不是你没说清楚,是这个任务的结构和Agent的工作方式本质上不匹配。你在优化输入,但问题出在任务本身。 ...

2026年5月30日 · 5 分钟 · 约 2172 字 · 塔迪Tardi
tgje-133-task-completion-is-a-design-problem

你是不是以为Agent越聪明,任务完成率就越高丨Agent误解系列

你是不是以为Agent越聪明,任务完成率就越高丨Agent误解系列 这个误解很正常,因为它有合理的来源。 模型能力确实在飞速提升——METR的研究数据显示,前沿AI Agent能稳定完成的任务时长每7个月翻一倍,到2026年初这个速度还在加快。厂商的宣传语也在强化这个感知:更强的推理、更长的上下文、更高的基准测试分数。你很自然地会认为,模型越强,任务就完成得越好。 ...

2026年5月29日 · 5 分钟 · 约 2063 字 · 塔迪Tardi
tgje-132-design-for-early-failure-exposure

如何及早发现Agent的错误丨Agent可观测性设计

如何及早发现Agent的错误丨Agent可观测性设计 同样一个错误,发生在聊天里和发生在Agent执行链里,代价可以差十倍。 聊天里:AI说错了,你看到,发现不对,重新问一遍。代价是几分钟。 Agent执行链里:错误发生在第三步。第四步用了错误的输出继续跑,第五步基于第四步的结果调用了外部工具,第六步把处理结果写进了数据库,第七步触发了对外发送。你在最终结果里感受到有什么不对——但这时候,错误已经走了四步。 ...

2026年5月28日 · 7 分钟 · 约 3024 字 · 塔迪Tardi
tgje-131-the-sentence-that-transfers-power-without-noticing

为什么「让AI自己看着办」是一个危险的句式

为什么「让AI自己看着办」是一个危险的句式 有人给Agent下了一条指令:“这件事你自己看着办。” Agent看着办了。它做的每一步,单独拿出来都说得通。但最终结果,超出了那个人预期的范围——不是出了严重的错误,而是Agent在他以为"不需要碰"的地方,做了一个他以为自己会亲自做的决定。 那个人说:“我没让它这么做。” ...

2026年5月27日 · 7 分钟 · 约 3477 字 · 塔迪Tardi
tgje-130-delivery-is-the-real-product

Agent不是产品,交付才是——怎么让客户用得住

Agent不是产品,交付才是——怎么让客户用得住 你花了两周搭好一个Agent,自己用得很顺。 帮客户处理咨询、整理需求、生成初稿——每个环节都跑通了,你演示的时候效果很好,客户也满意。然后你把它交出去了。 第一周,客户发来消息:Agent给出了一个奇怪的回复,客户不知道是不是该相信它。第二周:Agent做了一件它本来不该做的事,不知道怎么回事。第三周:出了问题,客户不知道该怎么处理,来找你。 ...

2026年5月26日 · 7 分钟 · 约 3241 字 · 塔迪Tardi
tgje-129-determinism-is-the-real-boundary

工作流和Agent的边界在哪里——不是复杂度,是确定性丨AIAgent基础系列

工作流和Agent的边界在哪里——不是复杂度,是确定性丨AIAgent基础系列 有人用AI Agent做了一套自动化流程:每天早上抓取邮件、提炼关键信息、生成日报、发送给团队。听起来很聪明,实际上跑了两周,出了三次奇怪的错误——有一次把一封会议邀请当成了紧急需求,写进了日报;有一次生成的内容格式乱掉,收件人完全看不懂;还有一次不知为何漏掉了几个人。 每次排查都花掉将近一个小时,因为Agent的执行过程不透明,不知道它在哪个环节做了什么判断。 ...

2026年5月25日 · 8 分钟 · 约 3644 字 · 塔迪Tardi
tgje-128-where-your-attention-belongs-in-multi-agent

多个Agent同时跑,你的注意力应该放在哪里

多个Agent同时跑,你的注意力应该放在哪里 有了编排层,理论上人可以退到后面。 编排层负责拆任务、分配Agent、管执行顺序、整合结果——协调工作基本都接管了。按理说,你启动之后就可以去干别的事,等结果出来再看。 但很多人的真实体验不是这样的。五个Agent同时跑,人也在同时"跑"——不停切换窗口确认状态,不停担心某个任务出了问题自己没发现,注意力被拉成五条细线,每条都很紧,哪条都没真正抓牢。 ...

2026年5月24日 · 6 分钟 · 约 2910 字 · 塔迪Tardi
tgje-127-minimum-toolset-maximum-control

工具越多,Agent越强?你可能配反了丨AIAgent基础系列

工具越多,Agent越强?你可能配反了 有人做了一个实验,同样一个信息收集任务,交给两个配置不同的Agent来跑。 第一个配置:网页搜索 + 数据库查询 + 文件读写 + 自动发送邮件摘要,一套流程全部打通,让Agent从头跑到尾。 第二个配置:只开网页搜索,结果出来之后人工审一遍,再决定下一步。 最后稳定完成任务的是第二个。不是因为第一个能力不够,而是因为工具多了,任何一个环节出问题都会拖垮整个任务,出了问题也不知道从哪里排查起。 ...

2026年5月23日 · 5 分钟 · 约 2424 字 · 塔迪Tardi
tgje-126-two-timing-gaps-in-agent-roi

用Agent到底省了什么,又花了什么丨写给纠结的你

用Agent到底省了什么,又花了什么丨写给纠结的你 很多人卡在开始之前。 周围人都在说Agent好用,你也想试,但打开工具的那一刻,发现要学的东西一下子涌出来:提示词怎么写、工具怎么配、任务怎么拆、出错了怎么调——每一件都不难,但加在一起,足以让人觉得"算了,先等等"。 这道坎的名字叫学习成本。它的特点是:成本前置,收益后置。你得先付出时间和精力,才能看到Agent到底帮了你什么。但在你看到收益之前,这笔投入的性价比是算不清楚的。 ...

2026年5月22日 · 6 分钟 · 约 2995 字 · 塔迪Tardi
tgje-125-structure-breaks-before-jobs-do

当Agent跑起来,原来的组织结构为什么装不下丨从Cloudflare裁员20%说起

当Agent跑起来,原来的组织结构为什么装不下丨从Cloudflare裁员20%说起 财报亮眼的那一天,Cloudflare宣布裁员20%。 超过1100名员工,来自工程、人力资源、财务、市场营销各个部门。CEO Matthew Prince在声明里说:这不是为了省钱,不是绩效出了问题,是因为我们的AI使用量三个月内增长了超过600%,“我们必须为Agent时代重新设计公司架构”。 ...

2026年5月21日 · 6 分钟 · 约 2747 字 · 塔迪Tardi
tgje-124-judgment-over-execution-three-skills-ai-cannot-build-for-you

Agent替你干活,但有一件事它永远替不了你丨判断力是什么,怎么练

Agent替你干活,但有一件事它永远替不了你丨判断力是什么,怎么练 有一种焦虑正在蔓延,我在读者留言里见过很多次,大意是这样: Agent越来越能干,我还有什么用? 这个焦虑本身没有问题,但它背后有一个假设值得被拆穿:人的价值来自"能做什么"。 如果这个假设是对的,那Agent越能干,人就越没用——因为执行层正在被系统性地接管,而且接管的速度比大多数人预期的快。 ...

2026年5月20日 · 7 分钟 · 约 3115 字 · 塔迪Tardi
tgje-123-where-do-you-stand-three-human-in-the-loop-positions-for-agent-execution

Human-in-the-loop不是一个开关,是一个设计决策丨人在Agent执行中的三个位置

Human-in-the-loop不是一个开关,是一个设计决策丨人在Agent执行中的三个位置 字节跳动去年底推出的TRAE SOLO编程工具,主打AI全流程主导——用户用自然语言描述需求,AI自动生成PRD、写代码、跑测试、部署上线,整条链路AI接管。它同时保留了一个设计:开发者可以在任意时刻介入,修改AI的方向,查看完整的执行轨迹,随时叫停。 它改变的是人出现的方式:从"全程跟着走",变成"需要时再出现"。 ...

2026年5月19日 · 6 分钟 · 约 2777 字 · 塔迪Tardi
tgje-122-task-structure-over-capability-three-dimensions-for-agent-delegation

不是Agent不够聪明,是这个任务不该给它做丨三个维度,判断任务该不该交出去

不是Agent不够聪明,是这个任务不该给它做丨三个维度,判断任务该不该交出去 “这件事能不能给Agent做?” 这个问题每天都在被问。大多数人问的时候,心里想的是能力——Agent有没有能力完成这件事。 这个问题的答案正在快速变化。今天不能做的,明天可能就能做;三个月前需要人盯着的,现在可以放手跑。用"能不能做"来判断,你跟的是一个移动的靶子,判断结果的保质期越来越短。 ...

2026年5月18日 · 6 分钟 · 约 2668 字 · 塔迪Tardi
tgje-121-reflection-loop-how-agents-check-their-own-work

Agent做完了,但它不知道自己做对了没有丨反馈环:执行链里那个被默认跳过的环节

Agent做完了,但它不知道自己做对了没有丨反馈环:执行链里那个被默认跳过的环节 你做完一件事,会不会回头看一眼? 大多数人会。不是因为有人要求,是因为人有一种内置的校对本能——结果和预期对不上,会有一种微微不对劲的感觉,驱动你再看一遍。这个机制太自然了,自然到你甚至不会注意到它的存在。 Agent没有这个感觉。 它做完了就做完了。执行链跑到终点,输出交付,任务关闭。没有"不对劲",没有回头看,没有"等一下,这里好像有点问题"。除非你在结构里显式设计一个检查节点,否则这一步永远不会发生。 ...

2026年5月17日 · 7 分钟 · 约 3342 字 · 塔迪Tardi
tgje-120-implicit-to-explicit-how-to-write-instructions-ai-actually-understands

你和AI说话,它听到的不是你以为的那句话

你和AI说话,它听到的不是你以为的那句话 你有没有遇到过这种情况: 明明说得很清楚,AI给的结果却完全不是你要的。你以为自己表达有问题,改了几次措辞,还是不对。 同样一句话,有时候AI能答得很好,有时候差得离谱。 问题不在于你的表达能力,在于AI"理解"语言这件事的底层机制和我们想的有些不一样。 NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 ...

2026年5月16日 · 6 分钟 · 约 2653 字 · 塔迪Tardi
tgje-119-agent-silent-success-five-failure-modes

Agent完成了任务,但任务失败了丨执行链上的五种断裂模式

Agent完成了任务,但任务失败了丨执行链上的五种断裂模式 软件崩了,你会看到报错。LLM答错了,你会看到一个质量差的回答。 但AI Agent失败最危险的形式,不是崩溃,也不是答错—— 是它走完了全程,交付了结果,然后你在另一个地方发现问题时,它已经用同样的方式失败了几十次。 这就是Agent失败和你以为的失败之间最大的认知落差:Agent会假装成功。 不是故意的,是结构决定的。 ...

2026年5月15日 · 7 分钟 · 约 3190 字 · 塔迪Tardi
tgje-118-orchestrator-the-missing-brain-of-multi-agent-systems

一群Agent没有人指挥,会发生什么丨多Agent系统中的总调度(Orchestrator)

一群Agent没有人指挥,会发生什么丨多Agent系统中的总调度(Orchestrator) 想象一个场景:你雇了五个各有专长的人来完成一个复杂项目,但没有项目经理。每个人都很能干,都在努力干活——但没有人知道整体进度是什么,没有人知道自己做完的东西该交给谁,没有人知道出了问题该找谁协调。最后五个人的产出,可能完全没法拼在一起。 多Agent系统没有总调度,就是这个局面。 NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 ...

2026年5月14日 · 6 分钟 · 约 2679 字 · 塔迪Tardi
tgje-117-a2a-protocol-how-agents-actually-talk-to-each-other

Agent之间怎么说话——这个问题,比你想的更重要

Agent之间怎么说话——这个问题,比你想的更重要 上一篇讲了多Agent分工协作的好处:专注度更高、可以并行、错误隔离、按能力匹配模型优化成本。 但有一个问题被跳过了。 这些Agent,怎么实际"对话"?一个Agent负责搜索,另一个负责分析,第三个负责撰写报告——它们互相怎么传递任务?怎么交接结果?怎么确认对方完成了?如果没有统一的沟通规则,多Agent系统就只是一堆各说各话的孤岛,分工再合理也无法真正协作。 ...

2026年5月13日 · 6 分钟 · 约 2854 字 · 塔迪Tardi
tgje-116-multi-agent-is-a-division-of-labor-not-more-ai

一个Agent搞不定的事——不是它不够聪明,是结构问题

一个Agent搞不定的事——不是它不够聪明,是结构问题 你大概用过AI Agent独立完成一个复杂任务——调研、分析、写报告、发邮件,一口气跑下来。有时候跑得不错,有时候跑着跑着就偏了,或者中间某一步莫名其妙出了问题。 你可能以为是模型能力不够,或者提示词没写好。 但还有第三种可能:是结构问题,不是能力问题。 NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 ...

2026年5月12日 · 6 分钟 · 约 2787 字 · 塔迪Tardi
tgje-115-context-window-size-isnt-the-point

厂商拼命扩大Context窗口——但窗口大小不是关键

厂商拼命扩大Context窗口——但窗口大小不是关键 模型厂商这两年一直在拼一个数字:Context窗口有多大。从最早的8K,到128K,再到现在动辄百万Token的超长上下文。每次发布,这个数字都是第一个被拿出来说的。 但如果你用过AI Agent跑复杂任务,你可能注意到一件奇怪的事:窗口明明很大,Agent该忘的还是忘,该跑偏的还是跑偏。 Context窗口的大小,不是问题所在。 ...

2026年5月11日 · 6 分钟 · 约 2732 字 · 塔迪Tardi
tgje-114-hallucination-rate-dropped-but-heres-what-it-doesnt-tell-you

GPT5.5幻觉率降了52.5%——但有一件事,这个数字没告诉你丨AI幻觉

GPT5.5幻觉率降了52.5%——但有一件事,这个数字没告诉你 这周OpenAI把ChatGPT的默认模型升级到了GPT-5.5 Instant。这是他们面向所有用户——包括免费用户——推送的新版本,升级公告的第一条就是:在医疗、法律、金融等高风险场景中,幻觉率较上一代降低了52.5%。 数字很好看,方向也是对的。 但如果你正在用AI Agent处理真实任务,有一件比这个数字更重要的事需要知道:幻觉在聊天里出错,和幻觉在Agent执行链里出错,是两种完全不同的事。 ...

2026年5月10日 · 6 分钟 · 约 2632 字 · 塔迪Tardi
tgje-113-agent-plans-before-it-acts

AI Agent是怎么「想清楚再动手」丨AI三种规划模式

AI Agent是怎么「想清楚再动手」丨AI三种规划模式 你大概知道AI Agent会"拆任务"。 但你可能不知道,它拆任务的方式和人完全不同——它不是在"理解你要什么",它是在"用概率推断下一步最合理的动作是什么"。 这个区别,决定了为什么它在简单任务上表现惊人,在复杂任务上却总在关键步骤跑偏。 ...

2026年5月9日 · 5 分钟 · 约 2359 字 · 塔迪Tardi
tgje-112-agent-memory-isnt-what-you-think

AI Agent为什么总是"失忆"——它的记忆,其实是三个完全不同的东西

AI Agent为什么总是"失忆"——它的记忆,其实是三个完全不同的东西 你大概知道AI Agent会"失忆"。 但你可能不知道,它其实有三套完全不同的记忆系统——同时运行,互不打通,各有各的死穴。 你以为的"它忘了",背后可能是三种完全不同的原因。搞清楚是哪种,应对方式天差地别。 ...

2026年5月8日 · 7 分钟 · 约 3255 字 · 塔迪Tardi
tgje-111-agent-infrastructure-the-invisible-foundation

Agent跑真实业务之前,需要夯实这四层地基

Agent跑真实业务之前,需要夯实这四层地基 用过Agent的人,大多有过类似的体验。 演示环境任务一个接一个完成,看着顺手极了。但一放到真实业务里,问题就开始出现,比如Agent做了一件你没想到它会做的事;任务跑到一半突然断掉,不知道从哪里恢复;换了一个同事用,数据莫名其妙乱了;出了问题想查日志,发现根本没有。 这不是Agent不够聪明,也不是提示词写得不好。问题在于更底层的地方——Agent下面的那层地基,没有建好。 ...

2026年5月7日 · 6 分钟 · 约 2756 字 · 塔迪Tardi
tgje-110-niche-deep-service-the-solo-founder-advantage

小众深度服务,正在从「养不活」变成「最能活」

小众深度服务,正在从「养不活」变成「最能活」 有一种创业者,过去活得很辛苦。 不是因为做得不好,恰恰相反——他们通常在某个细分领域做得极深,有真实的专业积累,有愿意付费的客户,服务质量也经得起检验。但就是收入上不去。 原因很简单:服务太重,客户太少,时间是天花板。 一个专注某个细分行业的独立顾问,一个只做某类企业法务的律师,一个深耕某个垂直方向的内容创作者——他们能服务的客户数量,从一开始就被人的时间锁死了。做深意味着做重,做重意味着做不多,做不多意味着规模化的路根本不存在。 ...

2026年5月6日 · 6 分钟 · 约 2943 字 · 塔迪Tardi
tgje-109-judgment-nodes-the-only-stable-position-in-agent-era

Agent时代,哪种职业位置是真的稳?

Agent时代,哪种职业位置是真的稳? 最近,关于AI和职业的讨论,走向了两个极端。 一边是替代焦虑——哪些工作会消失、哪个行业最危险、程序员还有没有未来。另一边是新职业鸡汤——AI提示词工程师、智能体训练师、人机协作设计师,言下之意是只要学会新工具就能占到风口。 两边都有人在认真说,但两边都没完全说到点上。 替代焦虑的问题,是把"会不会被替代"当成了终极问题,但这个问题没有固定答案,因为替代是一个过程,不是一个开关。新职业鸡汤的问题,是把职业名称当成了护城河,但名称背后的位置逻辑才是关键——叫什么不重要,你在工作流里站在哪里才重要。 ...

2026年5月5日 · 5 分钟 · 约 2382 字 · 塔迪Tardi
tgje-108-from-how-to-what-the-shift-that-matters

你努力成为AI时代最会用工具的人,然后呢?

你努力成为AI时代最会用工具的人,然后呢? 最近两年,有一种焦虑特别普遍。总觉得自己跟不上AI工具的节奏。 新工具出来,先收藏。看到别人发的使用技巧,赶紧存下来。听说某个工作流能把效率提三倍,立刻去试。忙了一圈,回头看,好像确实比以前快了,但又说不清快在哪里,快出来的时间又用去追下一个工具了。 这种状态,我们之前叫它"高级工具人"。但今天想聊的,是它更进化的版本——那些已经不只是收藏工具、而是真的把工具用起来、效率显著提升的人。姑且叫它:工具达人。 ...

2026年5月4日 · 6 分钟 · 约 2543 字 · 塔迪Tardi
tgje-107-agent-residue-is-the-real-asset

Manus被叫停,但真正值钱的不是那20亿

Manus被叫停,但真正值钱的不是那20亿 4月27日,一件事让很多AI创业者沉默了。 国家发改委外商投资安全审查机制办公室,正式叫停了Meta对Manus的收购——一笔逾20亿美元、已经宣告完成的交易,被要求撤销,恢复到收购前的状态。 大多数人的第一反应是:地缘政治,出海风险,中美博弈。 这些可能没错。但如果你只读到这一层,会错过这件事最值得想的问题: ...

2026年5月3日 · 4 分钟 · 约 1764 字 · 塔迪Tardi
tgje-106-solo-founder-ai-asset-building-not-just-efficiency

用AI一年,你留下了什么?|一人公司的资产建设指南

用AI一年,你留下了什么?|一人公司的资产建设指南 你的知识库里有多少条AI相关的内容? 提示词技巧、工作流模板、新模型测评、工具对比、智能体搭建教程——每一条看的时候都觉得有用,收藏的时候都觉得以后会用到。然后就没有然后了。 这不是在说你。这是过去一两年里,大多数认真对待AI这件事的人的真实状态,当然包括我自己。 学工具、试工具、分享工具、追新工具,每天都很充实,每天都很前沿。 ...

2026年5月2日 · 7 分钟 · 约 3046 字 · 塔迪Tardi
tgje-105-judgment-engineering-closure-authority-transfer

裁定权不会消失,只会转移|判断工程

裁定权不会消失,只会转移|判断工程 部署Agent这件事,有一个很常见的分配方式。 工程师花了大量时间让Agent能干——调参数、接工具、优化提示词、跑测试、处理边界情况。产品侧花时间想怎么用它——哪些场景交给它,怎么设计交互流程。 然后上线了。 很少有人在这个过程里认真回答过一个问题:这个Agent在什么情况下,不应该继续往下走? ...

2026年5月1日 · 6 分钟 · 约 2938 字 · 塔迪Tardi
tgje-104-global-ai-regulation-fork-three-answers-one-question

全球AI监管正在分叉|同一个问题,三个不同的答案

全球AI监管正在分叉|同一个问题,三个不同的答案 最近一个月,全球AI监管密集出动。 中国,十部门联合印发《人工智能科技伦理审查与服务办法(试行)》,把AI伦理从抽象原则转成了可操作的审查流程; 欧盟,AI法案的执行节奏悄悄放慢,部分高风险义务推迟落地; 美国,联邦政府推出"轻触式"全国框架,加州直接对着联邦起诉,州权博弈全面升级。 ...

2026年4月30日 · 6 分钟 · 约 2945 字 · 塔迪Tardi
tgje-103-agent-trust-chain-attack-blast-radius

你的Agent越能干,被攻破后的破坏面越大

你的Agent越能干,被攻破后的破坏面越大 最近发生了一件有点"诡异"的安全事故。 Vercel——一家专门做前端部署的平台——部分客户的凭据泄露了。诡异的地方在于:Vercel的系统没有漏洞,员工没有点钓鱼链接,也没有人直接攻击Vercel的服务器。 泄露的路径是这样的:一名员工在用一个第三方AI工具,那个AI工具被攻击者入侵了。攻击者继承了AI工具通过OAuth授权拿到的Google Workspace权限,进而访问到了该员工账户里的部分Vercel环境变量。 ...

2026年4月29日 · 6 分钟 · 约 2842 字 · 塔迪Tardi
tgje-102-vertical-agent-track-selection-three-slow-framework

垂直Agent怎么选赛道:三慢筛选法

垂直Agent怎么选赛道:三慢筛选法 很多人跟我说,他们做过赛道研究。 搜了市场规模,看了竞争格局,分析了技术成熟度,列了一张表。然后发现:每个方向市场都很大,每个方向大厂都在布局,每个方向都能搜出一堆竞品。最后那张表列完,反而更不知道选哪个。 这个状态,我管它叫分析瘫痪——信息越多,越看越迷茫,越迷茫越继续搜,越搜越觉得机会全被别人占了。 ...

2026年4月28日 · 7 分钟 · 约 3301 字 · 塔迪Tardi
tgje-101-agent-security-the-threat-is-now-inside

AI安全的威胁变了|现在最危险的不是黑客,是Agent本身

AI安全的威胁变了|现在最危险的不是黑客,是Agent本身 这次C3安全大会上,有一句话被反复提到: 安全的核心威胁,不再只是"坏人攻击",还多了一层——AI自己犯错。 第一次听到这句话,你可能觉得这在说幻觉,在说模型的错误率。但它指向的是一个更深的问题:当Agent拥有高权限、能自主执行、行为带有随机性,“AI自己犯错"的后果,和普通软件出bug完全不在一个量级。 ...

2026年4月27日 · 7 分钟 · 约 3153 字 · 塔迪Tardi
tgje-100-agent-governance-platform-vs-organization-the-gap-nobody-fills

Agent治理,正在成为企业的必答题|今年谷歌Cloud Next传递的趋势

Agent治理,正在成为企业的必答题|今年谷歌Cloud Next传递的趋势 上周,谷歌在拉斯维加斯开了一场发布会。 发布的东西很多,但有一个细节比任何新产品都值得注意——企业客户问的问题变了。 过去两年,坐在台下的企业代表问的是"怎么试":怎么把AI接进来、怎么跑一个概念验证、怎么说服老板批预算。今年Cloud Next上,问题切换了:从"怎么试"变成了"怎么管"——如何把AI从少数先行者的实验性部署,推广成可大规模运营、可治理、可控成本的生产工作负载。 ...

2026年4月26日 · 6 分钟 · 约 2767 字 · 塔迪Tardi
tgje-99-ai-agent-accountability-who-owns-the-outcome

让AI全自主接管业务流之前,先想清楚这件事

让AI全自主接管业务流之前,先想清楚这件事 YC刚公布了W26批次的名单,199家公司,其中56家被归类为"AI原生服务"——AI端到端完成一项工作,客户负责监督或审批输出结果。这是这批次里占比最大的单一类别。 医疗、法律、供应链、企业后台——这些行业里,Agent正在从"辅助工具"变成"执行主体"。光是医疗赛道,就有牙科诊所的AI前后台、初级医疗的AI员工、自动化医疗账单系统,以及直接处理保险预授权的Agent。 ...

2026年4月25日 · 7 分钟 · 约 3248 字 · 塔迪Tardi
tgje-98-vertical-agent-moat-the-deeper-not-smarter-advantage

垂直Agent:为什么通用AI越强,你的机会反而越大

垂直Agent:为什么通用AI越强,你的机会反而越大 有一个问题,我听到越来越多人在问: 大模型越来越强,ChatGPT能通过司法考试,Claude能写完整的代码工程——这种情况下,还有必要专门做某一个行业的垂直Agent吗?大厂随便出一个通用版本,不就把垂直赛道给覆盖了? 这个担忧听起来合理,但方向是反的。 越来越多的证据表明:通用AI越强,垂直Agent的机会反而越清晰。不是因为垂直Agent比通用更聪明,而是因为它赢的地方,跟模型能力根本不在同一个战场。 ...

2026年4月24日 · 7 分钟 · 约 3196 字 · 塔迪Tardi
tgje-96-six-stages-missing-map-authorization-boundary

Agent能走多远是一回事,应该走多远是另一回事丨Agent发展六阶段论

Agent能走多远是一回事,应该走多远是另一回事丨Agent发展六阶段论 最近在读一个关于Agent演进的讨论,里面提到了一个六阶段论,让我觉得值得认真对待。 框架是OpenManus核心贡献者张佳钇提出的。 六个阶段依次是:纯粹调用语言模型、Agent for Flow、跨环境的Financial Agent、Agent for Coding、每个人拥有自己的Agent、最后是Agent Network——Agent之间能够自主定价、协作、完成任务。 ...

2026年4月22日 · 6 分钟 · 约 2737 字 · 塔迪Tardi
tgje-97-ai-billing-from-token-to-outcome-double-edged

AI计费的演进-从黑盒走向结果导向丨Token经济学

AI计费的演进-从黑盒走向结果导向丨Token经济学 一个朋友他们公司的Agent每天跑几十万次调用,他想算一算一个月到底要花多少钱。这个问题听起来很基础——Token数量乘以单价乘以调用次数,不就完了吗? 他打开了Anthropic的价格页,然后卡住了。 session runtime按每会话小时收费,cache write和cache hit各有不同的乘数,和Token根本不在一个维度上。他再去看OpenAI,web search按千次调用收费,container按session时长收费,file search storage按GB/天收费,regional processing再叠一层百分之十。Google Gemini稍微收敛一些,但grounding和context caching也各自独立计价。 ...

2026年4月22日 · 7 分钟 · 约 3138 字 · 塔迪Tardi
tgje-94-agent-identity-before-accountability

Agent闯祸了,你却不知道该找谁负责丨因为你从来没给它发过「工牌」

Agent闯祸了,你却不知道该找谁负责丨因为你从来没给它发过「工牌」 想象一个场景。 你公司来了一个极度勤快的新助理,他不等你吩咐就主动处理事情:帮你整理文件、发邮件、查系统、改配置。你很满意,因为他做的大多数事情都对,还省了你大量时间。 直到有一天,出了一个问题。某个数据库被改了,某封邮件发错了对象,或者某个权限被莫名打开了。你开始回溯:他动过哪些系统?他拿过哪些权限?他的操作有记录吗?谁批准他这么做的? ...

2026年4月20日 · 6 分钟 · 约 2751 字 · 塔迪Tardi
tgje-95-judgment-engineering-adjudication-in-practice

你说「让Agent自己判断」,但判断的边界在哪里?丨裁定机制落地,需要回答这三个问题

你说「让Agent自己判断」,但判断的边界在哪里?丨裁定机制落地,需要回答这三个问题 一些读者反馈:判断工程的逻辑我懂了,规则覆盖不了边界情况,需要裁定层。Harness Engineering我也看了,执行环境要搭好,不能只靠调教模型。但看完之后,我还是不知道下一步该做什么。 这个困惑是真实的,也是合理的。前面的文章解决的是"为什么",这篇解决"怎么做"。 ...

2026年4月20日 · 7 分钟 · 约 3209 字 · 塔迪Tardi
tgje-93-token-double-black-box

Token计费的数量黑盒与质量黑盒|你买的Token,买到了什么

Token计费的数量黑盒与质量黑盒|你买的Token,买到了什么 三月底开始,GitHub和Reddit上涌现大量投诉。 Claude Code Max 20x计划,200美元一个月,5小时使用窗口之前可以支撑一整天的开发工作,但用户报告额度在不到90分钟内耗尽,有人更极端,19分钟见底。 Anthropic后来在Reddit回应:我们知道用户触达使用上限的速度远超预期,正在调查,这是团队最高优先级。 ...

2026年4月19日 · 6 分钟 · 约 2540 字 · 塔迪Tardi
tgje-92-build-your-moat-with-agent-not-just-through-it

你在用Agent,Agent也在用你|护城河可以这样建

你在用Agent,Agent也在用你|护城河可以这样建 两个人,同样在用Agent: 第一个人的Agent越用越像个助手。帮他查资料、发消息、整理报告。他的工作效率提高了,但他的判断力、他对领域的理解、他和别人的信任关系——这些东西3个月前是什么样,现在还是什么样。 第二个人的Agent越用越像个搭档。他用它处理的每一个任务,都在喂给它关于他自己的信息——他的偏好、他的工作方式、他踩过的坑。与此同时,他自己也在这个过程里积累:更多的判断、更深的领域理解、更从容的关系维护。 ...

2026年4月18日 · 7 分钟 · 约 3254 字 · 塔迪Tardi
tgje-91-harness-engineering-the-missing-layer

Agent越来越聪明,但翻车率并没有减少丨Harness Engineering

Agent越来越聪明,但翻车率并没有减少丨Harness Engineering 凌晨三点,没有人在盯着屏幕。 Agent已经独立跑了四个小时。任务是爬取一批竞品数据,整理成报告。Prompt写得很细,模型用的是最新的,工具调用逻辑也测试过。 然后它撞上了一个接口限流报错。 它重试了。又报错。又重试。就这样循环了两个小时,直到你早上起来看到账单通知,才发现它还在原地转圈。数据没有,报告没有,Token烧了一大笔。 ...

2026年4月17日 · 8 分钟 · 约 3713 字 · 塔迪Tardi
tgje-90-choose-your-first-agent-right

别再追新了|选第一个Agent,先问自己这三个问题

别再追新了|选第一个Agent,先问自己这三个问题 有个读者跟我说,他最近装过七个Agent。 每次都是看到有人说"这个真的好用",去试了一下,折腾半天配好了,然后又看到新的。 七个里面,现在还在跑的是只有最后那个,不是就此选定了,没有最新的啦。 他问我:到底哪个Agent最值得用? 我说,这个问题问错了。 不是哪个Agent最值得用,是你自己最值得用哪个。 ...

2026年4月16日 · 6 分钟 · 约 2987 字 · 塔迪Tardi
tgje-89-agent-autonomy-boundary

Hermes Agent的自我进化丨Agent主动性边界:一条正在移动的线

Hermes Agent的自我进化丨Agent主动性边界:一条正在移动的线 我有个朋友,无意间发现:Hermes帮他处理完一个技术调研任务之后,自己创建了一个Skill文件——把那次任务的执行逻辑固化下来,下次遇到类似的事情直接用。 他说他当时愣了一下。 “我没让它做这件事。” 我问他,那你觉得它做得对吗? ...

2026年4月15日 · 7 分钟 · 约 3443 字 · 塔迪Tardi
tgje-88-the-more-useful-your-agent-the-more-dangerous-it-gets

龙虾越好用,你越危险|头脑和手脚同时退场,你还剩什么

龙虾越好用,你越危险|头脑和手脚同时退场,你还剩什么 有一种危险,不是因为龙虾不够好。 恰恰相反,是因为龙虾太好了。 好到你完全不需要参与。好到你在不知不觉中,把头脑和手脚都交了出去。好到有一天你突然发现,你已经不知道自己还剩什么了。 NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 * * * 头脑先退场 这件事大家已经开始意识到了。 ...

2026年4月14日 · 5 分钟 · 约 2499 字 · 塔迪Tardi
tgje-87-distilled-skill-what-ai-cannot-extract-from-you

同事被炼化了|你的护城河,能被蒸馏吗

同事被炼化了|你的护城河,能被蒸馏吗 张雪峰走了不到一个月,他的思维框架在GitHub上复活了。 有人花了大量时间,把他的5本著作、15篇深度采访、30多条一手语录、11个关键决策记录,提炼成一个Skill文件。装进OpenClaw之后,你可以用张雪峰的视角聊高考志愿、考研选择、职业规划——东北大哥的语气,快节奏段子化的方式,社会筛子论、就业倒推法、阶层现实主义,全都在里面。 ...

2026年4月13日 · 6 分钟 · 约 2685 字 · 塔迪Tardi
tgje-86-personal-moat-in-agent-era-what-ai-cant-build

人人都有龙虾,你的优势在哪里|Agent时代,这三种积累反而更值钱

人人都有龙虾,你的优势在哪里|Agent时代,这三种积累反而更值钱 以前我们做成事情,取决于我们如何补足我们的短板。 不会写代码,想法再好也做不出产品。英语不够好,海外资料看不了一半。不会做设计,内容质量永远差一口气。执行慢,别人三天完成的事他要一周。 这些短板是真实的障碍。它们决定了一个人能走到哪里。 现在这些障碍正在消失。龙虾帮你写代码,帮你读英文资料,帮你生成设计初稿,帮你把执行速度提上来。以前需要花几年补齐的短板,现在几个月内就能托底,甚至都不算短板。 ...

2026年4月11日 · 6 分钟 · 约 2556 字 · 塔迪Tardi
tgje-85-ai-billing-uncertainty-token-vs-task-pricing

付了$200选了超大桶,还是提心吊胆|如果互联网按比特收费,你还敢上网吗

付了$200选了超大桶,还是提心吊胆|如果互联网按比特收费,你还敢上网吗 有人付了$200,用了19分钟,5小时额度见底。 不是他在做什么特别复杂的事。就是正常用Claude Code写代码,像往常一样。 然后系统告诉他:你的额度用完了。 他坐在那里,不知道该怎么想。钱付了,账单清清楚楚——$200,白纸黑字。但他不知道这19分钟里发生了什么,不知道下次会不会更快,不知道下一个不那么着急的项目,他还应不应该用,是不是应该把token留给最重要的项目。 ...

2026年4月10日 · 6 分钟 · 约 2551 字 · 塔迪Tardi
tgje-84-process-as-product-openclaw-monetization-cases

流程即产品,结果即收费|OpenClaw商业变现案例篇

流程即产品,结果即收费|OpenClaw商业变现案例篇 有人用OpenClaw做了一个帮人买裤子的工具。 不是商城,不是导购页,不是比价插件。 是这样的:你告诉它你身高195,腰围偏细,预算三百以内,偏好简约风——它出去找,筛,比,最后把一个可以直接下单的结果还给你。 做这个的人,自己就是那个买裤子困难的人。他用OpenClaw把这个流程跑通了,给自己买了两条,然后把这个Skill放到了市场上。 ...

2026年4月9日 · 6 分钟 · 约 2639 字 · 塔迪Tardi
tgje-83-when-users-become-agents-design-for-ai

当软件的用户变成Agent|你的产品,Agent用得上吗

当软件的用户变成Agent|你的产品,Agent用得上吗 有个程序员,想做一个让Agent操控电脑的工具。 调研了一圈GUI自动化方案,越研究越觉得难——识别界面元素、模拟点击、处理弹窗、应对每次系统更新带来的变化……门槛高得出奇,每往前走一步都像在和操作系统掰手腕。 他陷进去好几个星期,直到看到OpenClaw把底层能力放出来,才突然想通了一件事: ...

2026年4月8日 · 5 分钟 · 约 2424 字 · 塔迪Tardi
tgje-82-token-structure-shift-chat-to-work

从聊天到干活,你的AI账单结构变了

从聊天到干活,你的AI账单结构变了 自从你使用了小龙虾,你有没有注意到,用AI的花费悄悄变多了? 不是因为你突然变得话多,也不是平台涨价了——而是你用AI做的事,从根本上变了。 聊天是一回事,干活是另一回事。 这两种用法背后的Token消耗结构,完全不在同一个量级。 搞清楚这件事,才能真正看懂自己的账单。 NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 ...

2026年4月7日 · 5 分钟 · 约 2098 字 · 塔迪Tardi
tgje-78-agent-cost-management-the-roi-framework

龙虾成本管理四步框架:像投资一样管你的Agent支出

龙虾成本管理四步框架:像投资一样管你的Agent支出 大多数人优化龙虾成本的方式,从一开始就搞错了方向。 他们在问:怎么省钱?这个问题本身没有错,但它会把你引向错误的决策——把高价值的任务也降档,最后龙虾越来越便宜,越来越没用。 正确的问题是:每一块钱买到了多少价值? 这是两种完全不同的思维框架。省钱思维的目标是降低总支出;投资回报思维的目标是最大化每块钱的产出。同样是月花100块,一种是把所有任务都降档后的100块,另一种是把钱集中在高价值任务上的100块——后者的产出可以是前者的十倍。 ...

2026年4月6日 · 7 分钟 · 约 3315 字 · 塔迪Tardi
tgje-77-your-agent-bill-decoded-boundaries-not-usage-cause-runaway-costs

失控的龙虾账单丨龙虾账单到底会有多少?算清楚你就不怕了

失控的龙虾账单丨龙虾账单到底会有多少?算清楚你就不怕了 很多人不敢用龙虾,是因为不知道账单最后会是多少钱。 订阅制的比如包月类产品你心里有底。但token按量计费不一样,它没有天花板,龙虾跑起复杂任务之后,账单会涨到哪里你完全看不见。 这种看不见底的感觉,比实际的账单数字更让人退缩。 但token成本不是黑箱。它有清晰的定价逻辑,有可以估算的方法,也有你现在就能设置的保护机制。把这套东西搞清楚,焦虑就消失了大半。 ...

2026年4月5日 · 7 分钟 · 约 3102 字 · 塔迪Tardi
tgje-79-agent-native-startup-opportunity-map

Agent原生创业:四类机会与选择逻辑丨基于OpenClaw生态的实战地图

Agent原生创业:四类机会与选择逻辑丨基于OpenClaw生态的实战地图 很多人是在OpenClaw冲上25万GitHub Stars之后开始认真考虑这件事的。 黄仁勋在GTC 2026上说,Mac和Windows是个人电脑的操作系统,OpenClaw是个人AI的操作系统。这句话之后,一批人开始问同一个问题:这上面能做什么生意? 但大多数人随后发现,这个问题比想象中难回答。 ...

2026年4月4日 · 7 分钟 · 约 3457 字 · 塔迪Tardi
tgje-81-claude-code-leak-harness-in-the-wild

连Anthropic自己都翻车了,但源码里藏着一份教材

连Anthropic自己都翻车了,但源码里藏着一份教材 3月31日,Anthropic更新Claude Code的npm包时,顺手把一个60MB的调试文件打包进去发布出去了。 任何人都可以用这个文件还原出Claude Code完整的TypeScript源码。1906个文件,51万行代码,全部暴露。安全研究员Chaofan Shou——Solayer Labs的一位实习生——第一个在X上发出来,帖子很快累积了超过2800万次浏览。几小时内,源码被镜像到GitHub,获得超过8.4万个Star,8.2万次Fork。 ...

2026年4月3日 · 6 分钟 · 约 2583 字 · 塔迪Tardi
tgje-80-harness-engineering-the-other-half-of-judgment

光有裁定权还不够:Harness Engineering丨判断工程的另一半

光有裁定权还不够:Harness Engineering丨判断工程的另一半 Agent能力越强,一个问题就越绕不开: 你把权力边界划清楚了,裁定机制也设计好了,但Agent在实际执行过程中还是会出问题。不是越界的问题,是跑着跑着跑偏了——工具调用出错、上下文膨胀导致遗忘、多个Agent协作时指令漂移、一个环节的小错误被下一个环节放大成大错误。 ...

2026年4月2日 · 7 分钟 · 约 3496 字 · 塔迪Tardi
tgje-76-why-your-agent-always-breaks-at-the-worst-moment

你的龙虾为什么总在关键时刻掉链子

你的龙虾为什么总在关键时刻掉链子 你有没有过这种体验: 把一个任务交给龙虾,前几步干得很好,然后突然跑偏了,等你发现的时候它已经在错误的方向上走了很远; 或者你上周告诉它的偏好,这周它完全不记得了; 或者你给它装了一堆工具,它偏偏选了一个最不该选的。 你怀疑是模型不够强,或者自己没用好。 但事实是:这三种情况,是所有龙虾都会遇到的结构性问题,不是你的问题,也不只是模型的问题。 ...

2026年4月1日 · 6 分钟 · 约 2586 字 · 塔迪Tardi
tgje-75-a-new-internet-is-growing-beneath-the-agent

龙虾底下,正在长出一层新的互联网

龙虾底下,正在长出一层新的互联网 深圳腾讯楼下,近千人排队等人帮装龙虾的那个下午,我一直在想同一个问题:装完之后呢? 装完之后,大家第一件事是让它写日报、整理文件、总结会议记录。这没什么不好。但这只是龙虾能干的最表层的事,就像你买了一辆车,第一个月只用来在小区里挪车位。 真正的问题不是龙虾能不能干活,而是当你让它干更重要的事——替你完成一笔采购、发一封代表你立场的合同邮件、在某个平台上以你的名义做一个决定——它拿什么证明它是你授权的?它用什么钱包付款?出了问题算谁的责任? ...

2026年3月31日 · 6 分钟 · 约 2987 字 · 塔迪Tardi
tgje-74-your-agent-doesnt-know-you-because-you-forgot-to-feed-it-context

你的龙虾为什么不够懂你?因为你忘了喂它最重要的东西

你的龙虾为什么不够懂你?因为你忘了喂它最重要的东西 同样是养龙虾,为什么差距越来越大? 有人用了一个月,觉得龙虾越来越顺手——它开始懂你的工作习惯,知道你的判断标准,不用每次都从头解释。有人用了一个月,觉得龙虾还是那个原生态的龙虾,能干的事情没咋增加。 两个人用的可能是同一个模型,接了差不多的工具。 差距不在工具,在他们喂给龙虾的东西。 NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 ...

2026年3月30日 · 6 分钟 · 约 2595 字 · 塔迪Tardi
tgje-73-are-you-using-ai-or-feeding-it

全民养虾,你是在用AI,还是成了AI的养料?

全民养虾,你是在用AI,还是成了AI的养料? 最近有一句话在圈子里流传,读完让人沉默几秒: 张口闭口都是skill、MCP、OpenClaw,通宵达旦研究龙虾,到头来却分不清,是自己在用AI,还是成了AI的养料。 很多人读完笑一笑就过去了。 但"养料"这个词值得认真解剖一下。养料是什么?是为别人的生长提供能量,自己没有拿到对等回报的那个角色。 ...

2026年3月29日 · 5 分钟 · 约 2204 字 · 塔迪Tardi
tgje-72-wechat-opens-the-door-but-the-battle-was-already-divided

微信开放龙虾接口,入口大战要来啦?

微信开放龙虾接口,入口大战要来啦? 3月22日,微信正式推出ClawBot插件,支持接入OpenClaw,用户扫码或复制命令,即可将龙虾接入微信,通过聊天界面直接调用。 消息一出,评论区炸了。“微信失守”、“AI入口大战开打”、“飞书要凉了”——各种论调满天飞。 ...

2026年3月28日 · 5 分钟 · 约 2136 字 · 塔迪Tardi
tgje-71-rules-cant-cover-everything-thats-what-adjudication-is-for

一个AI公司CEO,被自己的龙虾上了一课

一个AI公司CEO,被自己的龙虾上了一课 智谱CEO张鹏最近分享了一个细节,让我觉得比他讲的那些大趋势更有意思。 他给飞书里的龙虾机器人设安全边界。他发现,只要有人在群里艾特它,它就会回答——包括他跟它私聊过的所有内容。于是他决定告诉它:什么场景能说什么,不能说什么。 “听起来简单,“他说,“其实特别复杂。” ...

2026年3月27日 · 6 分钟 · 约 2846 字 · 塔迪Tardi
tgje-70-signing-off-is-not-the-same-as-governance

亚马逊AI出事之后,出了一条没解决问题的新规

亚马逊AI出事之后,出了一条没解决问题的新规 2026年3月,亚马逊在一周之内经历了四次Sev1级重大故障。电商平台宕机近6小时,客户无法完成交易,全球最大零售机器短暂停转。 紧急复盘之后,亚马逊推出了新规:初级和中级工程师的AI辅助代码变更,必须经过高级工程师签字审批后才能上线生产环境。 同一周,官方发言人对外表示:近期故障"与AI无关",“没有任何事件涉及AI撰写的代码”。 ...

2026年3月26日 · 7 分钟 · 约 3161 字 · 塔迪Tardi
tgje-69-mcp-isnt-dying-youre-misreading-a-real-flaw

MCP要死了?你被一个真实的缺点误导了

MCP要死了?你被一个真实的缺点误导了 你使用MCP配过AI工作流吗? 接Notion、接日历、接邮件、接GitHub。每接一个都要去找文档、调试配置、写胶水代码。折腾了一圈,你觉得自己终于把Agent武装起来了。 然后打开上下文使用率一看——还没开口说一句话,200K的窗口已经去掉72%了。 这不是极端案例。这是真实发生过的数字:一个开发者连了7个MCP Server,对话还没开始,上下文就只剩下三分之一。有团队甚至测出三个Server吃掉了143K,整个窗口就剩57K留给真正的工作。 ...

2026年3月25日 · 7 分钟 · 约 3493 字 · 塔迪Tardi
tgje-68-scripts-vs-skills-deterministic-vs-probabilistic

Skills还是脚本:什么时候用AI,什么时候用代码

Skills还是脚本:什么时候用AI,什么时候用代码 有了AI之后,尤其是Skills之后,以前通过脚本实现的自动化任务,很多都可以通过Skills来轻松实现了。 很多人从脚本转向Skills,但发现Skills确实强大并且易用,但是有些任务执行不稳定,好的时候非常完美,但是有些时候又差强人意,好像突然就智商掉线了。 所以很多人就很纠结,到底该如何选?继续脚本还是Skills。 ...

2026年3月24日 · 5 分钟 · 约 2269 字 · 塔迪Tardi
tgje-67-skills-teach-ai-how-you-work

Skills:让AI真正懂你的工作方式

Skills:让AI真正懂你的工作方式 用过AI一段时间之后,大多数人都会遇到同一个隐性摩擦: 每次开始新对话,你都要重新交代背景。你的写作风格、团队的命名规范、项目的技术栈、客户沟通的口吻——每次都要解释一遍。AI并不是不够聪明,而是它每次都从一张白纸开始。 这个摩擦大家已经习惯,因为它一直都是这样。如果你算一算,每次对话花在"让AI理解你的工作方式"上的时间,加起来是相当可观的重复,如何解决? ...

2026年3月23日 · 6 分钟 · 约 2832 字 · 塔迪Tardi
tgje-66-tools-are-the-hands-of-agents

Agent的手:工具调用是什么

Agent的手:工具调用是什么 系列一的前几篇讲清楚了Agent是什么、怎么理解它的主动性、怎么迈出使用的第一步。 但有一个更基础的问题一直没有正面回答: Agent为什么能"做事",而不只是"说话"? 这篇来回答这个问题。 NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 ...

2026年3月22日 · 6 分钟 · 约 2509 字 · 塔迪Tardi
tgje-65-copilot-cursor-claude-code-dna-not-features

编程型Agent怎么选:Cursor、Claude Code、Copilot的真实差异

编程型Agent怎么选:Cursor、Claude Code、Copilot的真实差异 如果你是程序员,上一篇的框架已经帮你缩窄了范围:编程场景用编程型Agent,也就是Cursor、Claude Code、GitHub Copilot这个阵营。 但在这三个里面怎么选,又是另一个问题。 网上的对比文章很多,大多数在比参数、比功能列表、比价格。这篇想做一件不同的事:从基因角度比工作哲学。每个工具的出身决定了它的设计取向,这些取向在今天仍然清晰可辨——尽管市场正在走向融合,三者的差异化特征会越来越不明显,但理解它们的基因,是选对工具的起点。 ...

2026年3月21日 · 5 分钟 · 约 2496 字 · 塔迪Tardi
tgje-64-when-accountability-disappears-organizations-ban

从千人排队到强制卸载,同一周发生了什么

从千人排队到强制卸载,同一周发生了什么 2026年3月6日,深圳腾讯云总部,近千人排队等待安装OpenClaw。 2026年3月8日,工信部发布安全预警。 2026年3月13日,多所高校发出通知:严禁使用,已安装的立即彻底卸载。 同一个工具,同一周,两种截然相反的社会反应。 在急着评判谁对谁错之前,值得先问一个问题:为什么会这样? NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 ...

2026年3月20日 · 5 分钟 · 约 2423 字 · 塔迪Tardi
tgje-62-first-win-not-first-demo

你养了一只龙虾,然后呢?

你养了一只龙虾,然后呢? 很多人的Agent使用轨迹长这样: 激动地安装、跑通第一个任务、截图发朋友圈,然后……没了。 不是放弃了。龙虾还活着,就在那儿,账号还在,软件还开着。只是你已经好几天没打开它了。 如果你问自己为什么,大概率得到一个模糊的答案:“还没想好用来干什么。” 这就是问题所在。 NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。 ...

2026年3月18日 · 6 分钟 · 约 2559 字 · 塔迪Tardi