AIAgent | AioGeoLab | AI 实验室

tgje-199-why-your-company-cannot-hold-an-ai-that-decides

当AI Agency开始决定下一步，企业还能照原来的方式运行吗？丨ANC重新理解组织承载

当AI Agency开始决定下一步，企业还能照原来的方式运行吗？丨ANC重新理解组织承载设想一家公司的季度复盘会上，两份追加投资的申请摆在同一张桌上。第一份来自客服团队。一个AI助手上线已有一段时间，能回答大部分常见问题，遇到超出范围的情况就转给人工坐席，人工按原有队列处理。第二份来自财务。一个对账系统每天夜里运行，自己发现异常、跨三个系统调取凭证、判断是先补单还是先冻结账期，第二天早上把处理结果和一份例外摘要交给财务主管。 ...

tgje-198-who-decides-the-next-step-tool-or-agency

当AI开始决定下一步，它还是工具吗？丨AI Tool与AI Agency的分界

当AI开始决定下一步，它还是工具吗？丨AI Tool与AI Agency的分界一家企业的管理层最近同时收到三份AI项目申请。客服团队要做的系统能查知识库、调工单、自动生成回复。财务团队要做的系统能跨五个环节完成对账，中间不需要人干预。研发团队要做的系统能自己排查线上故障，找到原因后处理掉。三份申请书都用了同一个词：Agent。也都列了同一组能力：推理、记忆、工具调用、多步骤执行。而在此之前不久，供应商刚刚把前一年卖给这家公司的Copilot也改名叫了Agent。 ...

tgje-197-why-ai-adoption-does-not-change-the-company

为什么AI越用越多，公司却没有真正改变？丨ANC重新理解AI转型

为什么AI越用越多，公司却没有真正改变？丨ANC重新理解AI转型麦肯锡2025年的全球AI调查里，88%的受访者表示，其所在组织已经在至少一个业务职能中常态使用AI，一年前这一比例是78%。39%的受访者表示，AI已经对组织的企业级息税前利润产生某种程度的影响，但其中大多数认为，AI带来的影响还不到EBIT的5%。符合该调查"AI高绩效组织"定义的——超过5%的企业级EBIT影响，并且产生“显著价值”——约占6%。 ...

tgje-196-why-ai-gets-faster-but-human-review-gets-more-stuck

为什么AI效率越来越高，人工审核反而越来越堵？丨FDE重新理解判断系统

为什么AI效率越来越高，人工审核反而越来越堵？丨FDE重新理解判断系统再回到我们熟悉的案例。客服AI上线一年，处理量提高了十倍。但AI生成的回复仍然要求人工审核后才能发送。一年前这套系统刚上线的时候，这样安排还算合理——模型会错在哪里还不清楚，没有人敢让AI直接面对客户。一年后，审核队列越来越长。AI每天生成上万条回复，人工审核容量不到两千。一线审核员为了赶进度开始快速扫一眼就点通过。系统的产出能力提高了十倍，组织的实际响应时间停在了原地。 ...

tgje-195-why-ai-problems-sit-in-weekly-reports-for-months

为什么AI的问题周报里写了三个月，还是要等出事才改？丨FDE重新理解修复延迟

为什么AI的问题周报里写了三个月，还是要等出事才改？丨FDE重新理解修复延迟还是先看一个案例。一套企业AI助手上线八个月，整体运行正常。第三个月开始，运营团队在周报里记了一条：部分客户咨询保修政策时，系统给出的条款版本不一致。错误率不高，2%左右，客服手动修复后没有引发投诉。第四个月，同一条又出现在周报里。错误率涨到5%，运营建议排查模型是否引用了过期的政策文档。技术团队反馈"已列入排查计划"。 ...

tgje-194-why-employees-do-everything-twice-after-ai-launch

为什么AI上线以后，一线员工反而要把同一件事做两遍？丨FDE重新理解影子工作流

为什么AI上线以后，一线员工反而要把同一件事做两遍？丨FDE重新理解影子工作流继续看这个我们熟悉的例子。一套客服AI上线半年，使用率和自动化率都已经达标。管理层看到的是：系统每天自动处理上千条客户咨询，平均响应时间缩短了40%。一线客服经历的是另一件事。一条退款申请进来，AI生成了一段回复。客服没有直接发送——她打开CRM核对订单信息，再打开自己的Excel表逐项检查金额、退款政策和客户历史，发现AI漏掉了一条三个月前的特殊约定，修改了回复，然后回到AI系统点击"确认发送"，留下一条自动化处理记录。 ...

tgje-193-why-ai-gets-harder-to-justify-over-time

为什么AI项目上线越久，反而越难证明它有效？丨FDE重新理解价值复验

为什么AI项目上线越久，反而越难证明它有效？丨FDE重新理解价值复验先看一个例子。一套客服AI上线两年了。仪表盘指标一切正常：调用量还在上涨，响应时间持续下降，自动化率达到了立项时承诺的目标。到了供应商续约的时候，财务在评审会上问了一句：如果明年不续，我们究竟需要多花多少钱？（它能帮我们每年省下来多少钱？）没有人答得出来。不是因为数据不够。系统每天处理多少条请求、平均响应多快、自动化覆盖了多少比例，全都有。答不出是因为：这些请求中有多少必须由这套系统处理？如果换成今天市面上的其他方案，成本和效果会怎样？员工在系统运行中处理了多异常例外？这些例外有没有计入成本统计？ ...

tgje-192-why-every-department-is-right-but-the-project-is-stuck

为什么业务、技术和法务都没错，AI项目还是推进不了？丨FDE重新理解约束冲突

为什么业务、技术和法务都没错，AI项目还是推进不了？丨FDE重新理解约束冲突让我们先看一个从多个企业项目中抽象出的案例。一套退款Agent进入第六次上线评审。业务负责人要求70%的退款申请由系统自动处理。风控要求错误退款率低于0.5%。运营团队说自己最多只能人工复核8%的申请。三个指标单独看都合理。问题出在它们放到一起的时候。模型团队已经优化了三轮。第一轮调高自动化率，错误退款率越过0.5%。第二轮收紧判断阈值把错误率压了回来，需要人工复核的比例涨到23%，运营接不住。第三轮折中，直接拒绝不确定的申请，投诉率超过业务能接受的范围。 ...

为什么一个简单的AI功能，开十场会还是无法上线？丨FDE重新理解决策权

为什么一个简单的AI功能，开十场会还是无法上线？丨FDE重新理解决策权下面这个场景，是从多类企业AI项目中抽象出来的综合现场。一个客服Agent已经通过测试。它草拟的回复，在抽样评测里质量稳定，业务部门等着上线，因为客服团队工单积压严重。上线评审会上，安全部门担心用户数据在调用过程中泄露。法务担心Agent在回复里做出没有授权的承诺——比如随口答应一个退款期限。品牌团队担心语气失控，在客诉场景里说错话。IT担心新组件影响主系统稳定性。每个部门派来的人，都带着专业判断和真实的风险认知。 ...

为什么AI项目最后总会卡在那个最懂业务的人身上？丨FDE重新理解责任单点

为什么AI项目最后总会卡在那个最懂业务的人身上？丨FDE重新理解责任单点一个企业的合同审查系统上线了。这套系统用了一个Agent，专门读合同、标风险。标准合同它处理得很好：付款条款、违约责任、常见的保密约定，几秒钟扫完，标得又快又准。销售团队很满意，因为大量标准单子不用再排队等法务了。但只要合同里出现一条非标准条款——一个客户硬要塞进来的特殊赔偿上限、一句措辞含糊的知识产权归属——系统就把它标成"需人工复核"，然后，这条复核请求，无一例外地，落到同一个人桌上：那位最懂业务的法务专家。 ...

为什么AI项目一进入跨部门协作，就会变成所有人的兼职？丨FDE重新理解资源承诺

为什么AI项目一进入跨部门协作，就会变成所有人的兼职？丨FDE重新理解资源承诺微软2025年《工作趋势指数》报告，调查了31个国家、约3.1万名职场人。一个数字是：全球80%的劳动力——员工和领导者都算在内——说自己缺乏足够的时间或精力完成手头的工作。另一个数字是：82%的领导者有信心，会在未来12到18个月里用"数字劳动力"，也就是AI Agent，来扩充组织的容量。 ...

为什么很多系统不是死于错误，而是死于正确？丨FDE重新理解局部最优

为什么很多系统不是死于错误，而是死于正确？丨FDE重新理解局部最优销售部门选了一套最适合销售场景的AI工具，转化率确实涨了；客服部门选了一套最适合客服场景的AI，平均处理时间确实降了；法务部门选了一套审查最严格的AI，合规风险确实小了。每一个决定，都经过了各自部门认真的论证，也都拿到了看得见的结果。半年后，企业发现自己拼不出一个统一的系统关系图，一次跨部门的安全审计，要先花两个月才能厘清到底有多少AI系统在处理哪些数据。真正的问题，从来不是哪一个部门选错了工具，而是没有任何一个决定，需要为整个系统负责。 ...

为什么好的架构师，总是在为未来的错误设计系统？丨FDE重新理解可逆决策

为什么好的架构师，总是在为未来的错误设计系统？丨FDE重新理解可逆决策 2024年夏天，摩根大通上线了内部生成式AI平台LLM Suite——这是一家年科技预算高达180亿美元的银行，完全有能力、也有资源直接押注市面上当时最强的那个模型。但它没有这么做。它选择自己在内部搭建一套系统，让OpenAI、Anthropic的模型可以同时接入，随时可能替换掉其中任何一个。八个月内，用户涨到20万，2025年拿下American Banker年度创新大奖。 ...

为什么最先进的架构，经常输给最普通的方案？丨FDE重新理解复杂度

为什么最先进的架构，经常输给最普通的方案？丨FDE重新理解复杂度 2023年初，AutoGPT发布，核心卖点是"全自主"：给一个目标，GPT-4自己拆解步骤、自己决定用什么工具、自己执行到底，不需要人设计流程。几个月内GitHub star冲到10万+，融资随之涌入。两年后，AutoGPT团队自己动手，把这套系统最初引以为傲的东西拆掉了——负责长程记忆的向量数据库。原因是：这份复杂度带来的收益，抵不上它的维护成本。他们拆掉的，恰恰是当初最引以为傲的技术优势。这不是"当初做错了"，是行业的发展产生了根本性变化——同一赛道里的CrewAI，生存的方式是不那么"野心勃勃"：固定角色、清晰交接、人工审批节点，不再追求"完全自主"。 ...

为什么优秀团队，总是在最后一刻才锁定方案？丨FDE重新理解信息价值

为什么优秀团队，总是在最后一刻才锁定方案？丨FDE重新理解信息价值 2025年年中，Karpathy说了一句话，很快传遍整个行业：该用"上下文工程"取代"提示工程"。这句话为什么会成立？因为大量团队在生产环境里发现，真正卡住agent的，从来不是prompt写得好不好，是有没有在每一步喂对信息。Shopify CEO Tobi Lütke几乎同时公开附和，几个月后，Gartner的报告里正式写下"提示工程正在过时"这个判断。 ...

为什么真正优秀的团队，总是在拒绝项目？丨FDE重新理解战略放弃

为什么真正优秀的团队，总是在拒绝项目？丨FDE重新理解战略放弃 2020年，Palantir成立满17年，估值约200亿美元，准备在纽交所直接上市。招股书第一次被迫公开了这家公司一直讳莫如深的东西——客户名单，总共大约125个。这家公司此前几乎不透露自己在为谁服务，硅谷多年来一直把它当成最神秘的公司之一来议论，没人说得清它到底在给谁干活，只隐约知道它跟情报机构、军方走得很近。CEO Alex Karp多年前就说过，上市会让这样一家公司很难经营下去；这些年融到的每一轮资金，投资人也是按"是否认同长期使命"筛出来的，不是按谁给的估值最高筛出来的。 ...

tgje-183-feasible-region-not-best-solution

为什么很多AI项目，从立项那天就已经失败了？丨FDE重新理解工程可行域

为什么很多AI项目，从立项那天就已经失败了？丨FDE重新理解工程可行域 2012年，IBM与Memorial Sloan Kettering癌症中心（MSK）合作，开发一套辅助肿瘤医生制定治疗方案的系统——Watson for Oncology。2015年，IBM把它做成独立的Watson Health部门，推向全球，先后进入印度Manipal Hospitals等多家医院。问题成立——癌症治疗方案的选择，直接关系生死，重要性毋庸置疑。 ...

为什么最先被提出来的问题，往往不是最值得解决的问题？丨FDE重新理解问题价值

为什么最先被提出来的问题，往往不是最值得解决的问题？丨FDE重新理解问题价值 “哪个项目值得占用建设资源”——这是选对项目要回答的问题。但即使一个项目已经通过了这道筛选，团队真正开始动手的时候，能摆上台面的问题不止一个，先解决哪一个，往往没有现成的答案。大多数团队会用一套排序方法：谁最痛苦，谁最着急，谁的声音大，谁的问题就先解决。打开需求评审表，排在最上面的，通常是工单量最大的那一类，或者是上周刚刚闹到管理层的。这几乎是本能反应。 ...

tgje-181-value-density-over-success-rate

为什么越容易做的AI项目，往往越不值得做？丨FDE重新理解机会成本

为什么越容易做的AI项目，往往越不值得做？丨FDE重新理解机会成本 2025年，MIT媒体实验室旗下的NANDA项目做了一次覆盖150多位高管访谈、350份员工问卷、300个公开AI部署案例的调研。结论只有一句话：95%的GenAI（生成式AI）试点项目，对P&L（损益表）没有产生任何可以衡量的影响。真正带来收益的，只有5%。这份报告还有一个更扎心的补充：这95%里，大多数项目并没有卡在"做不出来"这一步——它们大都顺利上线了，技术本身没有问题。企业把最多的预算投向了销售和市场类AI试点，因为这类项目demo效果最好、最容易过审批；可恰恰是这类项目回报率最低。真正带来最高回报的，是后台自动化这类不起眼、不容易拿去汇报的项目。 ...

为什么OpenAI愿意花几十亿美元，只为买下一支150人的团队？丨从FDEngineer到FDEngineering

为什么OpenAI愿意花几十亿美元，只为买下一支150人的团队？丨从FDEngineer到FDEngineering 2026年5月，7天之内，发生了三件表面上互不相关的事。 5月4日，Anthropic官宣和黑石集团（Blackstone）、Hellman & Friedman、高盛一起成立一家15亿美元的合资企业，专门帮中型企业把AI真正用起来——模式是把工程师直接嵌进客户内部。 5月11日，OpenAI宣布成立一家名叫"OpenAI Deployment Company"的新公司——投后估值140亿美元，首轮就拿到超过40亿美元资金，由私募股权公司TPG领投，19家投资方参与，包括高盛、软银、贝恩资本。同一天，OpenAI宣布了另一件事：收购一家总部在英国爱丁堡、员工只有大约150人的咨询公司，Tomoro。 ...

为什么AI岗位一天收到500份简历，核心人才却依然难求？丨FDE重新理解AI建设者

为什么AI岗位一天收到500份简历，核心人才却依然难求？丨FDE重新理解AI建设者今年国内一份人才薪酬报告显示，大模型算法工程师稳居招聘热度第一名，校招月薪中位数超过2.4万元，顶尖院校的博士候选人，部分企业开出的年薪逼近200万元。这是大多数人对"AI人才"的全部印象——稀缺、高薪、一将难求。但今年3月，一位长期在招聘一线的AI工程社区版主写了一篇长文，说的是完全不同的画面：发一个真实的AI工程岗位，一天之内能收到300到500份简历。他说得很直白，所谓"广泛的AI人才缺口"，在招聘市场的一线数据面前，可能只是一种错觉。 ...

为什么同样的模型，结果差距却越来越大？丨FDE重新理解AI竞争力

为什么同样的模型，结果差距却越来越大？丨FDE重新理解AI竞争力 2026年，Stack Overflow对开发者的年度调查显示了一个反常的数字：GitHub Copilot在专业开发者里的使用份额，从67%跌到了51%。同一时间段，另一家公司几乎是从零起步，不到两年做到20亿美元年化收入，成为SaaS历史上增速最快的公司之一，三分之二的世界500强都是它的客户——这家公司是Cursor。 ...

为什么AI产品可以买到，AI能力却买不到？丨FDE重新理解AI基础设施

为什么AI产品可以买到，AI能力却买不到？丨FDE重新理解AI基础设施 2026年Team8对北美几十家银行做的一份调研显示，81%的银行因为AI，改变了自己的build-vs-buy策略。这个数字不寻常。银行是最保守的机构之一，过去三十年的共识一直很简单：买软件，建关系。工程团队稀缺又昂贵，供应商有规模效应，账怎么算都是外包划算。AI本该让这个共识更稳固——模型越来越便宜，接口越来越标准，企业照理说应该更放心地把AI能力交给供应商。 ...

为什么真正的AI能力，都长在项目之外？丨FDE重新理解产品反哺

为什么真正的AI能力，都长在项目之外？丨FDE重新理解产品反哺联想和IDC今年发布的一份调研显示，国内企业平均已经在3.5个场景里跑通了智能体应用，2026年计划扩展到6.7个。数字很扎实，进度也不算慢。但如果去问一个更具体的问题——你们做的第七个AI项目，是不是比第一个更容易？大多数负责人会不太确定。不是因为项目失败了。是因为即便都成功了，第七个项目重新经历的那些卡点——权限怎么控制、异常谁来处理、幻觉的边界如何界定——和第一个几乎一模一样。项目数量在涨，能力起点却没有跟着长。 ...

为什么真正有价值的AI，最后都会退到幕后？丨FDE重新理解生产系统

为什么真正有价值的AI，最后都会退到幕后？丨FDE重新理解生产系统 2024年3月，创业公司Cognition Labs发布Devin，打出的旗号是"世界第一个AI软件工程师"。一条演示视频里，Devin接了一个Upwork上的真实软件外包订单，从理解需求到写代码、调试、交付，全程自主完成，中间几乎不需要人插手。科技媒体几乎是一边倒的惊叹口吻在报道，视频疯传，公司估值从3.5亿美元一路涨到后来的20亿美元，一年多之后，随着收购交易的完成，估值又冲到超过100亿美元。 ...

为什么最好的AI方案，往往不是技术最先进？丨FDE重新理解工程判断

为什么最好的AI方案，往往不是技术最先进？丨FDE重新理解工程判断 2021年11月，美国最大的房源信息平台之一Zillow，突然宣布关停旗下"Zillow Offers"业务——一套用AI算法直接向业主报价、买下房子再转卖的"炒房"生意（业内叫iBuying，即由平台直接现金收购房产、翻新后再卖出的模式）。四年时间，这项业务从0做到30多亿美元营收，一度贡献了公司超过一半的收入，是增长最快的板块。消息公布当周，Zillow市值蒸发接近一半。关停的代价：超过5亿美元的损失，裁员2000多人，占全公司四分之一。 ...

为什么真正决定AI项目成败的，是第一周？丨FDE重新理解项目启动

为什么真正决定AI项目成败的，是第一周？丨FDE重新理解项目启动 2012年，德州大学旗下的MD Anderson癌症中心——全世界最顶尖的癌症研究机构之一——找上IBM，两家一起做一套叫Oncology Expert Advisor的AI系统，想让Watson帮医生给出癌症治疗建议，目标写得很大：提升全球癌症治疗水平。IBM的Watson在2011年靠智力问答节目《危险边缘》打败人类冠军一战成名，随后被包装成能治病救人的"AI医生"，大举进军医疗行业，MD Anderson是它最早、也最重量级的合作伙伴之一。四年后，这个项目烧掉6200万美元，合同延期了12次，最终被无限期搁置——从头到尾，没有一个真实患者真正用过它。 ...

tgje-172-judgment-supply-not-maintenance

为什么越来越多AI项目，最后都输在判断力供给？丨FDE重新理解持续运营

为什么越来越多AI项目，最后都输在判断力供给？丨FDE重新理解持续运营 2024年2月，瑞典先买后付（BNPL）巨头Klarna和OpenAI合作打造的AI客服助手，接管了相当于700名全职客服的工作量，处理了公司约三分之二的客户对话。这家服务全球约1.5亿用户的金融科技公司，一时间成了"AI替代人力"的样板——这个故事后来还成了Klarna在纳斯达克上市时最核心的卖点之一，帮它在2025年7月上市时股价单日上涨30%，估值冲到196.5亿美元。 ...

为什么AI上线以后，真正的工作才开始？丨FDE重新理解AI上线

为什么AI上线以后，真正的工作才开始？丨FDE重新理解AI上线基于大语言模型或自适应机器学习架构的AI系统，不会表现得像一个稳定的实体。它们和不断变化需求与行为的用户交互，被整合进并非为它们设计的机构工作流里，还会接收更新、微调和配置变更——这些变化未必会立刻被部署它们的组织看见。 AI不是一个稳定实体。传统软件是稳定实体。一段代码写好、测试通过、上线，只要没有人再去改它，它的行为就是稳定的。今天调用它，明天调用它，输入一样，输出一样。上线那一刻，交付完成，剩下的工作是常规维护——出了问题，找到那行代码，修好，结束。 ...

tgje-170-ai-creates-value-organizations-must-realize-it

为什么AI创造了价值，企业却看不见？丨FDE重新理解价值兑现

为什么AI创造了价值，企业却看不见？丨FDE重新理解价值兑现 79%的企业说，他们看到了AI带来的生产力提升。但只有大约25%的AI项目实现了预期的ROI（投资回报率），只有16%做到了全企业规模化，只有大约29%的企业表示自己能够相对准确地衡量ROI。 MIT Sloan复盘了300个公开部署案例和153份高管调查，得出一个更直接的数字：95%的生成式AI试点，没有在损益表上产生任何可衡量的影响。麦肯锡的数据讲的是同一件事：超过80%的企业没有从生成式AI里获得可感知的企业级利润影响，尽管88%的企业都在积极试验。 ...

tgje-169-trust-gap-is-a-handoff-design-gap

为什么老板觉得AI很好，员工却越来越不愿意用？丨FDE重新理解组织信任

为什么老板觉得AI很好，员工却越来越不愿意用？丨FDE重新理解组织信任 2026年，一项覆盖近14000名员工、横跨19个国家的调查发现一个反常的现象：员工使用AI的频率在2025年上升了13%，但他们对AI的信心却下降了18%。这个方向是反的。正常情况下，用得越多，应该越熟悉，越熟悉应该越放心。现实却是，用得越多，反而越不敢信。调研负责人的原话是：AI的采用在加速，但信心在降低。 ...

tgje-168-ai-delivery-is-behavior-not-capability

为什么AI项目越来越像组织工程？丨FDE重新理解AI建设

为什么AI项目越来越像组织工程？丨FDE重新理解AI建设 2024年，全球企业在AI上的投入达到2523亿美元。同一年，只有6%的企业报告了显著的盈利影响。 94%的投入没有产生可测量的业务回报。钱花出去了，系统跑起来了，结果没有。这件事让企业管理者很困惑。模型选对了，架构搭好了，系统上线了，为什么项目还是不成功？ MIT的研究给出了一个让人坐不住的答案：技术只占AI转型挑战的20%，人、流程、文化占剩下的80%。 ...

tgje-167-the-real-work-object-of-ai-has-always-been-context

为什么企业真正缺的不是模型，而是现场？丨FDE重新理解Context

为什么企业真正缺的不是模型，而是现场？丨FDE重新理解Context 两家公司，同一个模型供应商，同样的RAG架构，同样的工程团队规模。一家的AI客服系统上线三个月，准确率稳定在82%，用户投诉率下降了40%。另一家上线六个月，准确率徘徊在47%，客服团队开始绕过系统，回到人工处理。技术栈几乎一样。结果天差地别。哈佛商业评论今年发表了一篇文章，描述了两家几乎一模一样的B2B企业——同样的销售流程、同样的CRM系统、同样的客户群——用同样的AI工具，效果差异巨大。作者的结论是：当所有公司都能用同样的模型时，真正的差异化因素变成了组织Context。 ...

tgje-166-agent-intelligence-isnt-the-barrier-accountability-is

为什么Agent越来越聪明，却越来越难进入企业？丨FDE重新理解Agent工程

为什么Agent越来越聪明，却越来越难进入企业？丨FDE重新理解Agent工程做一个能对话的AI助手，和让一个AI Agent真正在企业里工作，是两件性质完全不同的事。这个区别，大多数人在看到Agent演示的时候不会意识到。演示很流畅：Agent接收指令，调用工具，返回结果，一气呵成。看起来和用一个更聪明的聊天机器人Chatbot没什么两样。但它不是聊天机器人。 Chatbot输出语言。Agent输出结果。 ...

为什么AI Demo越来越容易，真正上线却越来越难？丨FDE重新理解AI交付

为什么AI Demo越来越容易，真正上线却越来越难？丨FDE重新理解AI交付做出一个AI Demo，从来没有这么容易过。调用一个模型API，接上RAG（检索增强生成），搭一个简单的对话界面，一天之内，一个看起来能回答业务问题的原型就能跑起来。放在会议室里演示，效果很好，领导点头，客户感兴趣，项目获批。 ...

tgje-164-build-internal-fde-from-seed-to-methodology

甲方自建FDE能力：从找种子人到方法论落地丨三条路径和三大陷阱

甲方自建FDE能力：从找种子人到方法论落地丨三条路径和三大陷阱上一篇说：国内AI落地不缺人，缺的是有人对价值结果负责。FDE做的那些事分散在售前、实施、运维、产品经理身上，没有一个人的成败和"AI在客户现场真正产生了价值"绑定。这篇换到甲方视角。如果你在企业内部，想把这个能力建起来，从哪里开始，怎么建。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

tgje-163-fde-in-china-title-changed-work-object-hasnt

FDE在中国：title换了，工作对象没变丨判断一个岗位是不是FDE的四个问题

FDE在中国：title换了，工作对象没变丨判断一个岗位是不是FDE的四个问题上一篇讲的是迭代节奏——现场经验怎么反哺系统，怎么让下一次的起点比这一次高。目前FDE落地地图的主体框架部分我们已经介绍完成，大家已经形成了对于FDE落地工程的初步理解。这一篇换一个角度，不讲方法论，讲一下FDE这套体系在国内，是谁在执行？有什么特点。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

FDE迭代设计：下次更快，靠的不是记忆，是机制丨把五个主体阶段串起来的那根线

FDE迭代设计：下次更快，靠的不是记忆，是机制丨把五个主体阶段串起来的那根线上一篇我们讲了FDE的价值量化——量化不是项目结束后的总结，是第一天就要设计的机制。这一篇是这个逻辑的延伸，也是整个系列的收口。价值量化解决的是"这个项目值不值"的问题。迭代设计解决的是另一个问题：这次学到的东西，下次能不能真正用上。这两件事听起来都像常识，但几乎所有FDE团队在两件事上都会翻车。 ...

tgje-161-fde-value-quantification-measure-from-day-one

FDE价值量化：不是项目结束后的总结，是第一天就要设计的机制丨甲方问「这值多少钱」，你能回答吗

FDE价值量化：不是项目结束后的总结，是第一天就要设计的机制丨甲方问「这值多少钱」，你能回答吗一个AI系统上线了。用户觉得好用，采纳率也不错，FDE团队对这次交付很满意。但当CFO问：这个系统到底给公司带来了多少价值？这笔钱花得值吗？明年继续投入的依据是什么？ FDE团队很容易被问住。系统确实在跑，确实有人用，但没有人能说出一个令人信服的数字。“用户反馈很正面”——这是感受，不是答案。“采纳率很高”——高到什么程度，和什么对比？“效率提升了很多”——多少，怎么测出来的？ ...

tgje-160-fde-handoff-make-yourself-unnecessary

FDE交接：让自己变得不必要，才是真正的成功丨从第一周就要开始准备——120天移交，不依赖FDE一样正常运转

FDE交接：让自己变得不必要，才是真正的成功丨从第一周就要开始准备——120天移交，不依赖FDE一样正常运转产品化完成之后，FDE还有最后一件事：把系统和运营能力完整交给客户内部团队，然后离开。这件事听起来像是收尾动作，实际上是整个交付里最容易被忽视、也最容易搞砸的一关。有一个反直觉的说法值得先说出来：交接不是撤退，是验证。一个系统能不能在没有FDE的情况下继续运转，是对整个交付质量最真实的检验。如果FDE撤出之后系统就开始出问题，说明的不是交接环节出了什么差错，而是前面几个阶段留下了隐患——客户团队从来没有真正理解过这个系统，或者系统本身就建在FDE的持续介入上，而不是建在可以独立运营的基础上。 ...

tgje-159-fde-productization-marginal-cost-reusable-assets

FDE产品化：FDE和外包最本质的分水岭丨每次交付，都应该让下一次的成本更低

FDE产品化：FDE和外包最本质的分水岭丨每次交付，都应该让下一次的成本更低做完部署阶段的三件事——集成墙打通、裁定接口设计好、用户真正用起来——系统已经在生产环境里稳定运行了。这时候很多团队会做一件事：把项目标记为完成，FDE撤出，去接下一个客户。先看两支团队。 A团队做了两年AI落地交付，接了十几个客户，每个项目都顺利完成，客户评价不错。一个项目一个项目做下来，经验是有了，但交付周期和项目成本变化并不大，平均大概80%。 ...

tgje-158-fde-silent-failure-defense-three-layer-alerting

FDE沉默失败防线：让AI系统自己报警，比你想的难丨三道防线，覆盖传统监控的盲区

FDE沉默失败防线：让AI系统自己报警，比你想的难丨三道防线，覆盖传统监控的盲区上一篇说，可观测性是FDE在部署阶段必须主动设计的东西，是顺利移交的前提。这篇讲更具体的一个问题：系统真的出问题了，怎么让它主动发出信号？先看三个失败场景。客服机器人告诉用户，退款申请可以在48小时内处理——但这个政策根本不存在，是模型编出来的。RAG系统找到了正确的文档，但综合出了一个错误的答案。Agent选择了正确的工具，但传入了格式错误的参数，后续步骤全部基于这个错误的参数继续跑。 ...

tgje-157-fde-observability-design-handoff-prerequisite

FDE可观测性设计：不是运维任务，是能否顺利移交的前提丨AI沉默失败，客户如何第一时间知道？

FDE可观测性设计：不是运维任务，是能否顺利移交的前提丨AI沉默失败，客户如何第一时间知道？上一期说陪跑结束的标志是用户真正依赖系统。但系统被依赖之后，还有一个问题没有解决：系统出了问题，谁来发现，怎么发现？传统软件出错有明显信号——报错、崩溃、返回错误码，用户知道出问题了，运维团队收到告警，有人去处理。 AI系统出错的方式不一样。它不报错，它继续运行，继续生成输出，只是输出悄悄变差了。用户可能隐约感觉到哪里不对，但说不清楚；也可能完全没有感觉，直接基于错误的输出做了决策，等到后果显现，已经是几周之后的事了。 ...

tgje-156-fde-runside-building-user-trust-after-deployment

FDE陪跑阶段：让用户信任并真正用起来丨部署≠采纳

FDE陪跑阶段：让用户信任并真正用起来丨部署≠采纳集成障碍打通了，裁定接口设计好了，系统部署上线了。然后安排一场上线发布会，发一封全员邮件，告诉所有人新系统已经上线，欢迎使用。然后等用户来用。这样等来的结果，通常让人沮丧。系统的访问日志显示，头两周有一波流量，然后慢慢降下去。大多数人试用了一两次，发现有些地方不顺手，或者输出不够可靠，就回到了原来的工作方式。系统上线了，但没有人真正在用它。 ...

tgje-155-fde-hitl-design-risk-boundary-not-approval-process

FDE裁定接口设计：不是审批流程，是风险边界丨部署阶段交给判断工程的那份图纸

FDE裁定接口设计：不是审批流程，是风险边界丨部署阶段交给判断工程的那份图纸上一篇讲集成墙，最后说到身份权限墙的应对方向之一是"建立权限边界"。这篇深挖这条线怎么划——哪些决策AI可以自主做，哪些必须交给人类，这条边界画在哪里、由谁来画、怎么在系统里落地。先说一个很常见的处理方式：搭一套审批系统，遇到AI不确定的输出就发给人审，人批了就继续，人没批就等。听起来合理，实际上这是把一个设计问题当成了流程问题来解决。 ...

tgje-154-fde-integration-wall-ai-identity-shift

AI时代的FDE集成墙，和过去不一样丨身份认证、权限治理首当其冲

AI时代的FDE集成墙，和过去不一样丨身份认证、权限治理首当其冲上一篇说，原型验证完之后，进入部署阶段会撞上一堵"集成墙"。集成墙不是AI时代的新发明。企业软件落地这几十年里，这堵墙一直都在——遗留系统接口、权限审批、合规要求，这些障碍在SaaS时代有过，在云迁移时代有过，AI项目撞上它，某种程度上只是历史重演。 AI Agent的出现，让集成墙里的一道墙发生了质变——不是变难了，是变成了一个全新的问题，过去几十年积累的方法论在这里基本不管用。 ...

tgje-153-fde-prototype-validate-direction-not-demo

FDE原型阶段：验证方向而非Demo展示丨用真实数据验证方向，比用干净数据做出漂亮Demo更重要

FDE原型阶段：验证方向而非Demo展示丨用真实数据验证方向，比用干净数据做出漂亮Demo更重要上一篇说，发现阶段结束的标志是一句双方认可的问题定义。有了这句话，下一步是什么？很多人的直觉是：开始开发。 FDE的做法不一样——先做原型，在客户的真实数据上跑，把方向确认下来，然后再进入生产级别的工程投入。这篇讲原型阶段的核心逻辑：为什么要用真实数据，评测标准从哪里来、怎么建，以及原型阶段结束的标志是什么。 ...

tgje-152-fde-discovery-three-conversations-four-diagnoses-three-criteria

发现阶段：FDE进场之后的三件事丨三类对话、四类现场诊断、三个选点

发现阶段：FDE进场之后的三件事丨三类对话、四类现场诊断、三个选点上一篇说，发现阶段结束的标志是一句双方都认可的问题定义——可以说清楚，可以被衡量。这篇讲怎么把客户一开始说的那句模糊的话，变成那句清晰的定义。 FDE进场之后，有三件事要同时推进：翻译需求、诊断现场、选定第一个落地点。这三件事不是顺序完成的，是在同一段时间里交织进行的。把它们分开讲，是为了说清楚每件事的逻辑；实际操作里，你和用户对话的同时就在诊断现场，诊断现场的过程里就在筛选落地点。 ...

FDE落地地图：AI交付的五个阶段丨从第一次见客户到系统移交，每个阶段做什么

FDE落地地图：AI交付的五个阶段丨从第一次见客户到系统移交，每个阶段做什么上一篇说到，AI落地失败的根本原因不是模型问题，是交付问题。FDE这个角色，就是专门解决交付问题的。但"解决交付问题"本身也是一句模糊的话。具体怎么解决？从哪里开始？到哪里算完？中间会遇到什么？这篇把这些问题的答案画成一张地图。后续每一篇深挖地图上的一个位置，这篇是整个系列的坐标系。 ...

tgje-150-fde-deployment-thinking-for-builders

FDE落地工程：AI时代的落地交付丨当OpenAI花40亿造了一支「落地工程师」队伍，它在解决什么问题？

FDE落地工程：AI时代的落地交付丨当OpenAI花40亿造了一支「落地工程师」队伍，它在解决什么问题？ 2026年5月11日，OpenAI宣布成立一家新公司，叫"The Deployment Company"，专门做一件事：把工程师派驻到企业里面去。这家公司的启动资金是40亿美元，投资方包括TPG、高盛、麦肯锡。OpenAI自己出资5亿，保留控制权。同一周，他们收购了一家叫Tomoro的英国AI咨询公司，带过来150名有实战部署经验的工程师。 ...

tgje-149-agent-configuration-is-not-set-and-forget

Agent需要定期校准，不能配置好就不管了丨Agent误解系列

Agent配置好了，就不用管了？丨Agent误解系列你花了两周时间把Agent配好。提示词反复打磨，工具一个个接入，测试跑通，结果符合预期,开始正式使用。三个月后，它还在跑。但跑出来的结果开始让你皱眉——输出格式变了，某个工具返回的数据对不上，有几次任务完成了但结果感觉不太对。配置没动过，哪里出了问题？买一台洗衣机，装好了插上电，用就行。买一个SaaS软件，装好了配好了，更新是厂商的事，你不用操心底层。 ...

tgje-148-permission-is-blast-radius-not-capability

权限给得越多，Agent就越能干？丨Agent误解系列

权限给得越多，Agent就越能干？丨Agent误解系列给Agent配权限的时候，大多数人的逻辑很简单：权限越多，它能做的事越多，任务越顺。这个逻辑没有错。但它漏掉了另一半：权限越多，它出错时能造成的破坏越大。这两件事不是先后关系，是同一个变量的两个方向。你在往一个方向调的时候，另一个方向同步在动。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

tgje-147-automation-does-not-automatically-mean-less-work

自动化程度越高，人越省力？丨Agent误解系列

自动化程度越高，人越省力？丨Agent误解系列你把一个流程完全交给Agent跑，心里松了一口气：以为这下省事了。但这个松的感觉，有时候撑不了多久。过了一段时间，你开始想：它跑得对吗？出了问题我能发现吗？这个任务跑完我需不需要检查一遍？这个担心本身，就是自动化的隐性成本。它不出现在Token账单上，但它真实地消耗着你的注意力。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

tgje-146-fix-agent-errors-not-just-prompts

Agent出错了，改提示词就能修复？丨Agent误解系列

Agent出错了，改提示词就能修复？丨Agent误解系列 Agent跑偏了，你本能反应是修改提示词，有时候确实奏效——改完再跑，问题消失了。于是这个动作就固定下来了：出错了，先改提示词。但有一类出错，提示词改多少遍都没用。不是你没找到正确的表达方式，是问题根本不在那里。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

tgje-145-agent-value-is-not-in-the-middle

用Agent，就只是把任务丢给它跑？丨Agent误解系列

用Agent，就只是把任务丢给它跑？丨Agent误解系列你用Agent执行任务，最关注的是哪段时间？大多数人的第一反应：执行时间。Agent在跑，我不用动。这个判断没错，但它只说对了一半——省掉的是执行时间，但最重要的那两段时间，大多数人根本没花在上面：启动前的任务设计，和结束后的结果验收。结果是：Agent跑得很顺，方向是错的；跑完了，好不好也判断不了。 ...

tgje-144-parallel-agents-not-linear-speedup

N个Agent同时跑，效率是单任务的N倍？丨Agent误解系列

N个Agent同时跑，效率是单任务的N倍？丨Agent误解系列三个Agent同时跑，你心里在算一道乘法账：三倍速度，三倍产出。一个需要研究竞品、分析用户反馈、起草报告的任务，串行跑完可能要三小时。三个Agent分头跑，理论上压到一小时以内。上下文相互独立是多Agent架构的核心优势——每个Agent有自己的Context窗口，不会互相干扰，也不会因为一个Agent的上下文塞满而拖累其他Agent。 ...

tgje-143-longer-prompt-does-not-mean-better-agent

提示词越详细，Agent跑得越好？丨Agent误解系列

提示词越详细，Agent跑得越好？丨Agent误解系列提示词写得超详细，Agent还是跑偏了。你的第一反应几乎是本能的：没说清楚，再加一段。于是你加了背景、加了示例、加了注意事项，改完之后提示词更详细。但是再跑一遍，Agent还是在关键地方出了偏差。这时候你可能开始怀疑模型——它怎么就是不听？真正的问题，不在提示词的信息量，在信息放的位置。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

tgje-142-tool-calling-is-not-what-you-think

Agent调用工具，跟你用工具是一回事？丨Agent误解系列

Agent调用工具，跟你用工具是一回事？丨Agent误解系列你给Agent配了十几个工具：发邮件、查日历、读文件、调接口。配完之后，你可能有一种感觉——它现在"会用"这些工具了。就像你教会了一个助手怎么开软件、怎么找文件，接下来只管分配任务就好。这个感觉很自然，但它在一个关键地方出了偏差。你以为的"会用"，是你理解的那种会用。Agent那边，发生的是另一件事。 ...

tgje-141-reflection-is-engineered-not-innate

Agent的「反思」不是自省，是你设计出来的一套机制丨Agent误解系列

Agent的「反思」不是自省，是你设计出来的一套机制丨Agent误解系列 “Agent在反思”——这句话听起来很自然。 Reflection这个词本身带着强烈的拟人色彩。加上Chain of Thought让Agent把思考过程写出来，看起来像在逐步推敲；产品界面上那行"正在重新审视……“的提示，更强化了"它在想一想自己做得对不对"的感觉。 ...

Agent口中的完成，未必是你期望的完成丨Agent误解系列

Agent口中的完成，未必是你期望的完成丨Agent误解系列你有没有遇到过：让Agent做了一件事，它告诉你完成了，你打开看——格式完整，内容都在，好像没什么问题。但总觉得哪里不对，最终也确实发现了隐藏着的严重问题。这个问题有它的根源。 “完成"和"做对”，是两件不同的事。Agent能告诉你前者，但它不知道后者——除非你事先告诉它，“做对"对你来说意味着什么。 ...

tgje-139-hallucination-rate-is-not-agent-reliability

模型幻觉率降了，Agent不一定更可靠丨Agent误解系列

模型幻觉率降了，Agent不一定更可靠丨Agent误解系列这两年模型迭代飞快，各家厂商也在持续公布幻觉率改善数据。从机制上讲，这个进步是真实的——通过更好的训练方式、更严格的事实核查、提示词层面的干预，模型生成错误内容的概率确实在降低。有研究显示，针对性的提示词干预能把幻觉率从53%压到23%，降幅接近一半。但这个数字，几乎都是在聊天场景里测出来的。 ...

Agent看起来在思考，但它其实在做另一件事丨Agent误解系列

Agent看起来在思考，但它其实在做另一件事丨Agent误解系列把Agent的输出看成"思考的结果"，这个感觉不难理解。它会列出分析步骤，会说"首先考虑……其次……最后得出结论"，会在给建议之前先梳理前提条件。用"让我们一步一步来思考"这样的提示词，它输出的过程看起来和人在纸上推导一道题几乎没有区别。加上产品界面上那行"正在思考中……“的提示，整个体验都在暗示：它在思考。 ...

tgje-137-agent-memory-doesnt-grow-automatically

Agent用久了会越来越懂我？这件事不会自动发生丨Agent误解系列

Agent用久了会越来越懂我？这件事不会自动发生丨Agent误解系列这个期待非常合理，因为它在人际关系里一直成立。和一个人相处久了，他会记得你的习惯、你的偏好、你说话的方式，甚至你没说出口的顾虑。时间是理解的自然货币——相处越久，积累越多，理解越深。把这个直觉套到Agent上，感觉天经地义。而且短期内，这个感觉似乎也在被印证：同一次对话里，Agent确实越来越"懂"你——它开始用你习惯的语气，不再问你已经解释过的背景，给出的建议越来越贴合你的需求。 ...

你是不是也认为，让Agent帮你做决定会更可靠丨Agent误解系列

你是不是也认为，让Agent帮你做决定会更可靠丨Agent误解系列让Agent帮你做决定会更可靠，这个想法有它合理的来源。 Agent给出的分析质量确实很高——它能快速整合大量信息、列出选项、梳理利弊、标注风险。在很多场景里，照着它说的做，结果也不差。你很自然地会觉得：这不就是在帮我做决定吗？但这里有一个概念偷换，而且偷换得很隐蔽。 Agent在做的，是高质量的信息处理。它给你的，是"通常情况下大多数人会认为合理的选择"。这和"你这个人在你这个处境下的正确决定"，是两件不同的事。 ...

tgje-135-agent-bias-hidden-in-training-data

Agent没有情绪，但它有偏见——只是很难看见丨Agent误解系列

Agent没有情绪，但它有偏见——只是很难看见丨Agent误解系列因为Agent没有情绪，所以输出更客观，这个直觉有它合理的地方。 Agent确实没有情绪。它不会因为今天睡眠不足而判断失准，不会因为某个候选人和自己的老朋友长得像而打高分，不会因为下午三点精力下滑而在审阅第二十份简历时开始敷衍。但"没有情绪偏见"和"没有偏见"，是两件完全不同的事。 ...

tgje-134-task-structure-mismatch-not-a-prompt-problem

不是你没说清楚，是这类任务天然不适合Agent丨Agent误解系列

不是你没说清楚，是这类任务天然不适合Agent丨Agent误解系列用了Agent一段时间之后，很多人会形成一个固定动作：任务跑不好，回头改提示词。这个逻辑有它成立的地方。提示词写得更清楚，Agent确实经常跑得更好。于是"描述清楚"慢慢成了一种万能解——Agent出问题，先检查自己有没有说清楚，再考虑别的。但有一类失败，不管你怎么打磨描述都解决不了。不是你没说清楚，是这个任务的结构和Agent的工作方式本质上不匹配。你在优化输入，但问题出在任务本身。 ...

tgje-133-task-completion-is-a-design-problem

你是不是以为Agent越聪明，任务完成率就越高丨Agent误解系列

你是不是以为Agent越聪明，任务完成率就越高丨Agent误解系列这个误解很正常，因为它有合理的来源。模型能力确实在飞速提升——METR的研究数据显示，前沿AI Agent能稳定完成的任务时长每7个月翻一倍，到2026年初这个速度还在加快。厂商的宣传语也在强化这个感知：更强的推理、更长的上下文、更高的基准测试分数。你很自然地会认为，模型越强，任务就完成得越好。 ...

tgje-132-design-for-early-failure-exposure

如何及早发现Agent的错误丨Agent可观测性设计

如何及早发现Agent的错误丨Agent可观测性设计同样一个错误，发生在聊天里和发生在Agent执行链里，代价可以差十倍。聊天里：AI说错了，你看到，发现不对，重新问一遍。代价是几分钟。 Agent执行链里：错误发生在第三步。第四步用了错误的输出继续跑，第五步基于第四步的结果调用了外部工具，第六步把处理结果写进了数据库，第七步触发了对外发送。你在最终结果里感受到有什么不对——但这时候，错误已经走了四步。 ...

tgje-131-the-sentence-that-transfers-power-without-noticing

为什么「让AI自己看着办」是一个危险的句式

为什么「让AI自己看着办」是一个危险的句式有人给Agent下了一条指令：“这件事你自己看着办。” Agent看着办了。它做的每一步，单独拿出来都说得通。但最终结果，超出了那个人预期的范围——不是出了严重的错误，而是Agent在他以为"不需要碰"的地方，做了一个他以为自己会亲自做的决定。那个人说：“我没让它这么做。” ...

Agent不是产品，交付才是——怎么让客户用得住

Agent不是产品，交付才是——怎么让客户用得住你花了两周搭好一个Agent，自己用得很顺。帮客户处理咨询、整理需求、生成初稿——每个环节都跑通了，你演示的时候效果很好，客户也满意。然后你把它交出去了。第一周，客户发来消息：Agent给出了一个奇怪的回复，客户不知道是不是该相信它。第二周：Agent做了一件它本来不该做的事，不知道怎么回事。第三周：出了问题，客户不知道该怎么处理，来找你。 ...

tgje-129-determinism-is-the-real-boundary

工作流和Agent的边界在哪里——不是复杂度，是确定性丨AIAgent基础系列

工作流和Agent的边界在哪里——不是复杂度，是确定性丨AIAgent基础系列有人用AI Agent做了一套自动化流程：每天早上抓取邮件、提炼关键信息、生成日报、发送给团队。听起来很聪明，实际上跑了两周，出了三次奇怪的错误——有一次把一封会议邀请当成了紧急需求，写进了日报；有一次生成的内容格式乱掉，收件人完全看不懂；还有一次不知为何漏掉了几个人。每次排查都花掉将近一个小时，因为Agent的执行过程不透明，不知道它在哪个环节做了什么判断。 ...

tgje-128-where-your-attention-belongs-in-multi-agent

多个Agent同时跑，你的注意力应该放在哪里

多个Agent同时跑，你的注意力应该放在哪里有了编排层，理论上人可以退到后面。编排层负责拆任务、分配Agent、管执行顺序、整合结果——协调工作基本都接管了。按理说，你启动之后就可以去干别的事，等结果出来再看。但很多人的真实体验不是这样的。五个Agent同时跑，人也在同时"跑"——不停切换窗口确认状态，不停担心某个任务出了问题自己没发现，注意力被拉成五条细线，每条都很紧，哪条都没真正抓牢。 ...

tgje-127-minimum-toolset-maximum-control

工具越多，Agent越强？你可能配反了丨AIAgent基础系列

工具越多，Agent越强？你可能配反了有人做了一个实验，同样一个信息收集任务，交给两个配置不同的Agent来跑。第一个配置：网页搜索 + 数据库查询 + 文件读写 + 自动发送邮件摘要，一套流程全部打通，让Agent从头跑到尾。第二个配置：只开网页搜索，结果出来之后人工审一遍，再决定下一步。最后稳定完成任务的是第二个。不是因为第一个能力不够，而是因为工具多了，任何一个环节出问题都会拖垮整个任务，出了问题也不知道从哪里排查起。 ...

用Agent到底省了什么，又花了什么丨写给纠结的你

用Agent到底省了什么，又花了什么丨写给纠结的你很多人卡在开始之前。周围人都在说Agent好用，你也想试，但打开工具的那一刻，发现要学的东西一下子涌出来：提示词怎么写、工具怎么配、任务怎么拆、出错了怎么调——每一件都不难，但加在一起，足以让人觉得"算了，先等等"。这道坎的名字叫学习成本。它的特点是：成本前置，收益后置。你得先付出时间和精力，才能看到Agent到底帮了你什么。但在你看到收益之前，这笔投入的性价比是算不清楚的。 ...

tgje-125-structure-breaks-before-jobs-do

当Agent跑起来，原来的组织结构为什么装不下丨从Cloudflare裁员20%说起

当Agent跑起来，原来的组织结构为什么装不下丨从Cloudflare裁员20%说起财报亮眼的那一天，Cloudflare宣布裁员20%。超过1100名员工，来自工程、人力资源、财务、市场营销各个部门。CEO Matthew Prince在声明里说：这不是为了省钱，不是绩效出了问题，是因为我们的AI使用量三个月内增长了超过600%，“我们必须为Agent时代重新设计公司架构”。 ...

tgje-124-judgment-over-execution-three-skills-ai-cannot-build-for-you

Agent替你干活，但有一件事它永远替不了你丨判断力是什么，怎么练

Agent替你干活，但有一件事它永远替不了你丨判断力是什么，怎么练有一种焦虑正在蔓延，我在读者留言里见过很多次，大意是这样： Agent越来越能干，我还有什么用？这个焦虑本身没有问题，但它背后有一个假设值得被拆穿：人的价值来自"能做什么"。如果这个假设是对的，那Agent越能干，人就越没用——因为执行层正在被系统性地接管，而且接管的速度比大多数人预期的快。 ...

tgje-123-where-do-you-stand-three-human-in-the-loop-positions-for-agent-execution

Human-in-the-loop不是一个开关，是一个设计决策丨人在Agent执行中的三个位置

Human-in-the-loop不是一个开关，是一个设计决策丨人在Agent执行中的三个位置字节跳动去年底推出的TRAE SOLO编程工具，主打AI全流程主导——用户用自然语言描述需求，AI自动生成PRD、写代码、跑测试、部署上线，整条链路AI接管。它同时保留了一个设计：开发者可以在任意时刻介入，修改AI的方向，查看完整的执行轨迹，随时叫停。它改变的是人出现的方式：从"全程跟着走"，变成"需要时再出现"。 ...

tgje-122-task-structure-over-capability-three-dimensions-for-agent-delegation

不是Agent不够聪明，是这个任务不该给它做丨三个维度，判断任务该不该交出去

不是Agent不够聪明，是这个任务不该给它做丨三个维度，判断任务该不该交出去 “这件事能不能给Agent做？” 这个问题每天都在被问。大多数人问的时候，心里想的是能力——Agent有没有能力完成这件事。这个问题的答案正在快速变化。今天不能做的，明天可能就能做；三个月前需要人盯着的，现在可以放手跑。用"能不能做"来判断，你跟的是一个移动的靶子，判断结果的保质期越来越短。 ...

tgje-121-reflection-loop-how-agents-check-their-own-work

Agent做完了，但它不知道自己做对了没有丨反馈环：执行链里那个被默认跳过的环节

Agent做完了，但它不知道自己做对了没有丨反馈环：执行链里那个被默认跳过的环节你做完一件事，会不会回头看一眼？大多数人会。不是因为有人要求，是因为人有一种内置的校对本能——结果和预期对不上，会有一种微微不对劲的感觉，驱动你再看一遍。这个机制太自然了，自然到你甚至不会注意到它的存在。 Agent没有这个感觉。它做完了就做完了。执行链跑到终点，输出交付，任务关闭。没有"不对劲"，没有回头看，没有"等一下，这里好像有点问题"。除非你在结构里显式设计一个检查节点，否则这一步永远不会发生。 ...

tgje-120-implicit-to-explicit-how-to-write-instructions-ai-actually-understands

你和AI说话，它听到的不是你以为的那句话

你和AI说话，它听到的不是你以为的那句话你有没有遇到过这种情况：明明说得很清楚，AI给的结果却完全不是你要的。你以为自己表达有问题，改了几次措辞，还是不对。同样一句话，有时候AI能答得很好，有时候差得离谱。问题不在于你的表达能力，在于AI"理解"语言这件事的底层机制和我们想的有些不一样。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

tgje-119-agent-silent-success-five-failure-modes

Agent完成了任务，但任务失败了丨执行链上的五种断裂模式

Agent完成了任务，但任务失败了丨执行链上的五种断裂模式软件崩了，你会看到报错。LLM答错了，你会看到一个质量差的回答。但AI Agent失败最危险的形式，不是崩溃，也不是答错—— 是它走完了全程，交付了结果，然后你在另一个地方发现问题时，它已经用同样的方式失败了几十次。这就是Agent失败和你以为的失败之间最大的认知落差：Agent会假装成功。不是故意的，是结构决定的。 ...

tgje-118-orchestrator-the-missing-brain-of-multi-agent-systems

一群Agent没有人指挥，会发生什么丨多Agent系统中的总调度（Orchestrator）

一群Agent没有人指挥，会发生什么丨多Agent系统中的总调度（Orchestrator）想象一个场景：你雇了五个各有专长的人来完成一个复杂项目，但没有项目经理。每个人都很能干，都在努力干活——但没有人知道整体进度是什么，没有人知道自己做完的东西该交给谁，没有人知道出了问题该找谁协调。最后五个人的产出，可能完全没法拼在一起。多Agent系统没有总调度，就是这个局面。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

tgje-117-a2a-protocol-how-agents-actually-talk-to-each-other

Agent之间怎么说话——这个问题，比你想的更重要

Agent之间怎么说话——这个问题，比你想的更重要上一篇讲了多Agent分工协作的好处：专注度更高、可以并行、错误隔离、按能力匹配模型优化成本。但有一个问题被跳过了。这些Agent，怎么实际"对话"？一个Agent负责搜索，另一个负责分析，第三个负责撰写报告——它们互相怎么传递任务？怎么交接结果？怎么确认对方完成了？如果没有统一的沟通规则，多Agent系统就只是一堆各说各话的孤岛，分工再合理也无法真正协作。 ...

tgje-116-multi-agent-is-a-division-of-labor-not-more-ai

一个Agent搞不定的事——不是它不够聪明，是结构问题

一个Agent搞不定的事——不是它不够聪明，是结构问题你大概用过AI Agent独立完成一个复杂任务——调研、分析、写报告、发邮件，一口气跑下来。有时候跑得不错，有时候跑着跑着就偏了，或者中间某一步莫名其妙出了问题。你可能以为是模型能力不够，或者提示词没写好。但还有第三种可能：是结构问题，不是能力问题。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

tgje-115-context-window-size-isnt-the-point

厂商拼命扩大Context窗口——但窗口大小不是关键

厂商拼命扩大Context窗口——但窗口大小不是关键模型厂商这两年一直在拼一个数字：Context窗口有多大。从最早的8K，到128K，再到现在动辄百万Token的超长上下文。每次发布，这个数字都是第一个被拿出来说的。但如果你用过AI Agent跑复杂任务，你可能注意到一件奇怪的事：窗口明明很大，Agent该忘的还是忘，该跑偏的还是跑偏。 Context窗口的大小，不是问题所在。 ...

tgje-114-hallucination-rate-dropped-but-heres-what-it-doesnt-tell-you

GPT5.5幻觉率降了52.5%——但有一件事，这个数字没告诉你丨AI幻觉

GPT5.5幻觉率降了52.5%——但有一件事，这个数字没告诉你这周OpenAI把ChatGPT的默认模型升级到了GPT-5.5 Instant。这是他们面向所有用户——包括免费用户——推送的新版本，升级公告的第一条就是：在医疗、法律、金融等高风险场景中，幻觉率较上一代降低了52.5%。数字很好看，方向也是对的。但如果你正在用AI Agent处理真实任务，有一件比这个数字更重要的事需要知道：幻觉在聊天里出错，和幻觉在Agent执行链里出错，是两种完全不同的事。 ...

AI Agent是怎么「想清楚再动手」丨AI三种规划模式

AI Agent是怎么「想清楚再动手」丨AI三种规划模式你大概知道AI Agent会"拆任务"。但你可能不知道，它拆任务的方式和人完全不同——它不是在"理解你要什么"，它是在"用概率推断下一步最合理的动作是什么"。这个区别，决定了为什么它在简单任务上表现惊人，在复杂任务上却总在关键步骤跑偏。 ...

tgje-112-agent-memory-isnt-what-you-think

AI Agent为什么总是"失忆"——它的记忆，其实是三个完全不同的东西

AI Agent为什么总是"失忆"——它的记忆，其实是三个完全不同的东西你大概知道AI Agent会"失忆"。但你可能不知道，它其实有三套完全不同的记忆系统——同时运行，互不打通，各有各的死穴。你以为的"它忘了"，背后可能是三种完全不同的原因。搞清楚是哪种，应对方式天差地别。 ...

tgje-111-agent-infrastructure-the-invisible-foundation

Agent跑真实业务之前，需要夯实这四层地基

Agent跑真实业务之前，需要夯实这四层地基用过Agent的人，大多有过类似的体验。演示环境任务一个接一个完成，看着顺手极了。但一放到真实业务里，问题就开始出现，比如Agent做了一件你没想到它会做的事；任务跑到一半突然断掉，不知道从哪里恢复；换了一个同事用，数据莫名其妙乱了；出了问题想查日志，发现根本没有。这不是Agent不够聪明，也不是提示词写得不好。问题在于更底层的地方——Agent下面的那层地基，没有建好。 ...

tgje-110-niche-deep-service-the-solo-founder-advantage

小众深度服务，正在从「养不活」变成「最能活」

小众深度服务，正在从「养不活」变成「最能活」有一种创业者，过去活得很辛苦。不是因为做得不好，恰恰相反——他们通常在某个细分领域做得极深，有真实的专业积累，有愿意付费的客户，服务质量也经得起检验。但就是收入上不去。原因很简单：服务太重，客户太少，时间是天花板。一个专注某个细分行业的独立顾问，一个只做某类企业法务的律师，一个深耕某个垂直方向的内容创作者——他们能服务的客户数量，从一开始就被人的时间锁死了。做深意味着做重，做重意味着做不多，做不多意味着规模化的路根本不存在。 ...

tgje-109-judgment-nodes-the-only-stable-position-in-agent-era

Agent时代，哪种职业位置是真的稳？

Agent时代，哪种职业位置是真的稳？最近，关于AI和职业的讨论，走向了两个极端。一边是替代焦虑——哪些工作会消失、哪个行业最危险、程序员还有没有未来。另一边是新职业鸡汤——AI提示词工程师、智能体训练师、人机协作设计师，言下之意是只要学会新工具就能占到风口。两边都有人在认真说，但两边都没完全说到点上。替代焦虑的问题，是把"会不会被替代"当成了终极问题，但这个问题没有固定答案，因为替代是一个过程，不是一个开关。新职业鸡汤的问题，是把职业名称当成了护城河，但名称背后的位置逻辑才是关键——叫什么不重要，你在工作流里站在哪里才重要。 ...

tgje-108-from-how-to-what-the-shift-that-matters

你努力成为AI时代最会用工具的人，然后呢？

你努力成为AI时代最会用工具的人，然后呢？最近两年，有一种焦虑特别普遍。总觉得自己跟不上AI工具的节奏。新工具出来，先收藏。看到别人发的使用技巧，赶紧存下来。听说某个工作流能把效率提三倍，立刻去试。忙了一圈，回头看，好像确实比以前快了，但又说不清快在哪里，快出来的时间又用去追下一个工具了。这种状态，我们之前叫它"高级工具人"。但今天想聊的，是它更进化的版本——那些已经不只是收藏工具、而是真的把工具用起来、效率显著提升的人。姑且叫它：工具达人。 ...

tgje-107-agent-residue-is-the-real-asset

Manus被叫停，但真正值钱的不是那20亿

Manus被叫停，但真正值钱的不是那20亿 4月27日，一件事让很多AI创业者沉默了。国家发改委外商投资安全审查机制办公室，正式叫停了Meta对Manus的收购——一笔逾20亿美元、已经宣告完成的交易，被要求撤销，恢复到收购前的状态。大多数人的第一反应是：地缘政治，出海风险，中美博弈。这些可能没错。但如果你只读到这一层，会错过这件事最值得想的问题： ...

tgje-106-solo-founder-ai-asset-building-not-just-efficiency

用AI一年，你留下了什么？｜一人公司的资产建设指南

用AI一年，你留下了什么？｜一人公司的资产建设指南你的知识库里有多少条AI相关的内容？提示词技巧、工作流模板、新模型测评、工具对比、智能体搭建教程——每一条看的时候都觉得有用，收藏的时候都觉得以后会用到。然后就没有然后了。这不是在说你。这是过去一两年里，大多数认真对待AI这件事的人的真实状态，当然包括我自己。学工具、试工具、分享工具、追新工具，每天都很充实，每天都很前沿。 ...

tgje-105-judgment-engineering-closure-authority-transfer

裁定权不会消失，只会转移｜判断工程

裁定权不会消失，只会转移｜判断工程部署Agent这件事，有一个很常见的分配方式。工程师花了大量时间让Agent能干——调参数、接工具、优化提示词、跑测试、处理边界情况。产品侧花时间想怎么用它——哪些场景交给它，怎么设计交互流程。然后上线了。很少有人在这个过程里认真回答过一个问题：这个Agent在什么情况下，不应该继续往下走？ ...

tgje-104-global-ai-regulation-fork-three-answers-one-question

全球AI监管正在分叉｜同一个问题，三个不同的答案

全球AI监管正在分叉｜同一个问题，三个不同的答案最近一个月，全球AI监管密集出动。中国，十部门联合印发《人工智能科技伦理审查与服务办法（试行）》，把AI伦理从抽象原则转成了可操作的审查流程；欧盟，AI法案的执行节奏悄悄放慢，部分高风险义务推迟落地；美国，联邦政府推出"轻触式"全国框架，加州直接对着联邦起诉，州权博弈全面升级。 ...

tgje-103-agent-trust-chain-attack-blast-radius

你的Agent越能干，被攻破后的破坏面越大

你的Agent越能干，被攻破后的破坏面越大最近发生了一件有点"诡异"的安全事故。 Vercel——一家专门做前端部署的平台——部分客户的凭据泄露了。诡异的地方在于：Vercel的系统没有漏洞，员工没有点钓鱼链接，也没有人直接攻击Vercel的服务器。泄露的路径是这样的：一名员工在用一个第三方AI工具，那个AI工具被攻击者入侵了。攻击者继承了AI工具通过OAuth授权拿到的Google Workspace权限，进而访问到了该员工账户里的部分Vercel环境变量。 ...

tgje-102-vertical-agent-track-selection-three-slow-framework

垂直Agent怎么选赛道：三慢筛选法

垂直Agent怎么选赛道：三慢筛选法很多人跟我说，他们做过赛道研究。搜了市场规模，看了竞争格局，分析了技术成熟度，列了一张表。然后发现：每个方向市场都很大，每个方向大厂都在布局，每个方向都能搜出一堆竞品。最后那张表列完，反而更不知道选哪个。这个状态，我管它叫分析瘫痪——信息越多，越看越迷茫，越迷茫越继续搜，越搜越觉得机会全被别人占了。 ...

tgje-101-agent-security-the-threat-is-now-inside

AI安全的威胁变了｜现在最危险的不是黑客，是Agent本身

AI安全的威胁变了｜现在最危险的不是黑客，是Agent本身这次C3安全大会上，有一句话被反复提到：安全的核心威胁，不再只是"坏人攻击"，还多了一层——AI自己犯错。第一次听到这句话，你可能觉得这在说幻觉，在说模型的错误率。但它指向的是一个更深的问题：当Agent拥有高权限、能自主执行、行为带有随机性，“AI自己犯错"的后果，和普通软件出bug完全不在一个量级。 ...

tgje-100-agent-governance-platform-vs-organization-the-gap-nobody-fills

Agent治理，正在成为企业的必答题｜今年谷歌Cloud Next传递的趋势

Agent治理，正在成为企业的必答题｜今年谷歌Cloud Next传递的趋势上周，谷歌在拉斯维加斯开了一场发布会。发布的东西很多，但有一个细节比任何新产品都值得注意——企业客户问的问题变了。过去两年，坐在台下的企业代表问的是"怎么试"：怎么把AI接进来、怎么跑一个概念验证、怎么说服老板批预算。今年Cloud Next上，问题切换了：从"怎么试"变成了"怎么管"——如何把AI从少数先行者的实验性部署，推广成可大规模运营、可治理、可控成本的生产工作负载。 ...

tgje-99-ai-agent-accountability-who-owns-the-outcome

让AI全自主接管业务流之前，先想清楚这件事

让AI全自主接管业务流之前，先想清楚这件事 YC刚公布了W26批次的名单，199家公司，其中56家被归类为"AI原生服务"——AI端到端完成一项工作，客户负责监督或审批输出结果。这是这批次里占比最大的单一类别。医疗、法律、供应链、企业后台——这些行业里，Agent正在从"辅助工具"变成"执行主体"。光是医疗赛道，就有牙科诊所的AI前后台、初级医疗的AI员工、自动化医疗账单系统，以及直接处理保险预授权的Agent。 ...

tgje-98-vertical-agent-moat-the-deeper-not-smarter-advantage

垂直Agent：为什么通用AI越强，你的机会反而越大

垂直Agent：为什么通用AI越强，你的机会反而越大有一个问题，我听到越来越多人在问：大模型越来越强，ChatGPT能通过司法考试，Claude能写完整的代码工程——这种情况下，还有必要专门做某一个行业的垂直Agent吗？大厂随便出一个通用版本，不就把垂直赛道给覆盖了？这个担忧听起来合理，但方向是反的。越来越多的证据表明：通用AI越强，垂直Agent的机会反而越清晰。不是因为垂直Agent比通用更聪明，而是因为它赢的地方，跟模型能力根本不在同一个战场。 ...

tgje-96-six-stages-missing-map-authorization-boundary

Agent能走多远是一回事，应该走多远是另一回事丨Agent发展六阶段论

Agent能走多远是一回事，应该走多远是另一回事丨Agent发展六阶段论最近在读一个关于Agent演进的讨论，里面提到了一个六阶段论，让我觉得值得认真对待。框架是OpenManus核心贡献者张佳钇提出的。六个阶段依次是：纯粹调用语言模型、Agent for Flow、跨环境的Financial Agent、Agent for Coding、每个人拥有自己的Agent、最后是Agent Network——Agent之间能够自主定价、协作、完成任务。 ...

tgje-97-ai-billing-from-token-to-outcome-double-edged

AI计费的演进-从黑盒走向结果导向丨Token经济学

AI计费的演进-从黑盒走向结果导向丨Token经济学一个朋友他们公司的Agent每天跑几十万次调用，他想算一算一个月到底要花多少钱。这个问题听起来很基础——Token数量乘以单价乘以调用次数，不就完了吗？他打开了Anthropic的价格页，然后卡住了。 session runtime按每会话小时收费，cache write和cache hit各有不同的乘数，和Token根本不在一个维度上。他再去看OpenAI，web search按千次调用收费，container按session时长收费，file search storage按GB/天收费，regional processing再叠一层百分之十。Google Gemini稍微收敛一些，但grounding和context caching也各自独立计价。 ...

tgje-94-agent-identity-before-accountability

Agent闯祸了，你却不知道该找谁负责丨因为你从来没给它发过「工牌」

Agent闯祸了，你却不知道该找谁负责丨因为你从来没给它发过「工牌」想象一个场景。你公司来了一个极度勤快的新助理，他不等你吩咐就主动处理事情：帮你整理文件、发邮件、查系统、改配置。你很满意，因为他做的大多数事情都对，还省了你大量时间。直到有一天，出了一个问题。某个数据库被改了，某封邮件发错了对象，或者某个权限被莫名打开了。你开始回溯：他动过哪些系统？他拿过哪些权限？他的操作有记录吗？谁批准他这么做的？ ...

tgje-95-judgment-engineering-adjudication-in-practice

你说「让Agent自己判断」，但判断的边界在哪里？丨裁定机制落地，需要回答这三个问题

你说「让Agent自己判断」，但判断的边界在哪里？丨裁定机制落地，需要回答这三个问题一些读者反馈：判断工程的逻辑我懂了，规则覆盖不了边界情况，需要裁定层。Harness Engineering我也看了，执行环境要搭好，不能只靠调教模型。但看完之后，我还是不知道下一步该做什么。这个困惑是真实的，也是合理的。前面的文章解决的是"为什么"，这篇解决"怎么做"。 ...

Token计费的数量黑盒与质量黑盒｜你买的Token，买到了什么

Token计费的数量黑盒与质量黑盒｜你买的Token，买到了什么三月底开始，GitHub和Reddit上涌现大量投诉。 Claude Code Max 20x计划，200美元一个月，5小时使用窗口之前可以支撑一整天的开发工作，但用户报告额度在不到90分钟内耗尽，有人更极端，19分钟见底。 Anthropic后来在Reddit回应：我们知道用户触达使用上限的速度远超预期，正在调查，这是团队最高优先级。 ...

tgje-92-build-your-moat-with-agent-not-just-through-it

你在用Agent，Agent也在用你｜护城河可以这样建

你在用Agent，Agent也在用你｜护城河可以这样建两个人，同样在用Agent：第一个人的Agent越用越像个助手。帮他查资料、发消息、整理报告。他的工作效率提高了，但他的判断力、他对领域的理解、他和别人的信任关系——这些东西3个月前是什么样，现在还是什么样。第二个人的Agent越用越像个搭档。他用它处理的每一个任务，都在喂给它关于他自己的信息——他的偏好、他的工作方式、他踩过的坑。与此同时，他自己也在这个过程里积累：更多的判断、更深的领域理解、更从容的关系维护。 ...

tgje-91-harness-engineering-the-missing-layer

Agent越来越聪明，但翻车率并没有减少丨Harness Engineering

Agent越来越聪明，但翻车率并没有减少丨Harness Engineering 凌晨三点，没有人在盯着屏幕。 Agent已经独立跑了四个小时。任务是爬取一批竞品数据，整理成报告。Prompt写得很细，模型用的是最新的，工具调用逻辑也测试过。然后它撞上了一个接口限流报错。它重试了。又报错。又重试。就这样循环了两个小时，直到你早上起来看到账单通知，才发现它还在原地转圈。数据没有，报告没有，Token烧了一大笔。 ...

别再追新了｜选第一个Agent，先问自己这三个问题

别再追新了｜选第一个Agent，先问自己这三个问题有个读者跟我说，他最近装过七个Agent。每次都是看到有人说"这个真的好用"，去试了一下，折腾半天配好了，然后又看到新的。七个里面，现在还在跑的是只有最后那个，不是就此选定了，没有最新的啦。他问我：到底哪个Agent最值得用？我说，这个问题问错了。不是哪个Agent最值得用，是你自己最值得用哪个。 ...

Hermes Agent的自我进化丨Agent主动性边界：一条正在移动的线

Hermes Agent的自我进化丨Agent主动性边界：一条正在移动的线我有个朋友，无意间发现：Hermes帮他处理完一个技术调研任务之后，自己创建了一个Skill文件——把那次任务的执行逻辑固化下来，下次遇到类似的事情直接用。他说他当时愣了一下。 “我没让它做这件事。” 我问他，那你觉得它做得对吗？ ...

tgje-88-the-more-useful-your-agent-the-more-dangerous-it-gets

龙虾越好用，你越危险｜头脑和手脚同时退场，你还剩什么

龙虾越好用，你越危险｜头脑和手脚同时退场，你还剩什么有一种危险，不是因为龙虾不够好。恰恰相反，是因为龙虾太好了。好到你完全不需要参与。好到你在不知不觉中，把头脑和手脚都交了出去。好到有一天你突然发现，你已经不知道自己还剩什么了。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 * * * 头脑先退场这件事大家已经开始意识到了。 ...

tgje-87-distilled-skill-what-ai-cannot-extract-from-you

同事被炼化了｜你的护城河，能被蒸馏吗

同事被炼化了｜你的护城河，能被蒸馏吗张雪峰走了不到一个月，他的思维框架在GitHub上复活了。有人花了大量时间，把他的5本著作、15篇深度采访、30多条一手语录、11个关键决策记录，提炼成一个Skill文件。装进OpenClaw之后，你可以用张雪峰的视角聊高考志愿、考研选择、职业规划——东北大哥的语气，快节奏段子化的方式，社会筛子论、就业倒推法、阶层现实主义，全都在里面。 ...

tgje-86-personal-moat-in-agent-era-what-ai-cant-build

人人都有龙虾，你的优势在哪里｜Agent时代，这三种积累反而更值钱

人人都有龙虾，你的优势在哪里｜Agent时代，这三种积累反而更值钱以前我们做成事情，取决于我们如何补足我们的短板。不会写代码，想法再好也做不出产品。英语不够好，海外资料看不了一半。不会做设计，内容质量永远差一口气。执行慢，别人三天完成的事他要一周。这些短板是真实的障碍。它们决定了一个人能走到哪里。现在这些障碍正在消失。龙虾帮你写代码，帮你读英文资料，帮你生成设计初稿，帮你把执行速度提上来。以前需要花几年补齐的短板，现在几个月内就能托底，甚至都不算短板。 ...

tgje-85-ai-billing-uncertainty-token-vs-task-pricing

付了$200选了超大桶，还是提心吊胆｜如果互联网按比特收费，你还敢上网吗

付了$200选了超大桶，还是提心吊胆｜如果互联网按比特收费，你还敢上网吗有人付了$200，用了19分钟，5小时额度见底。不是他在做什么特别复杂的事。就是正常用Claude Code写代码，像往常一样。然后系统告诉他：你的额度用完了。他坐在那里，不知道该怎么想。钱付了，账单清清楚楚——$200，白纸黑字。但他不知道这19分钟里发生了什么，不知道下次会不会更快，不知道下一个不那么着急的项目，他还应不应该用，是不是应该把token留给最重要的项目。 ...

tgje-84-process-as-product-openclaw-monetization-cases

流程即产品，结果即收费｜OpenClaw商业变现案例篇

流程即产品，结果即收费｜OpenClaw商业变现案例篇有人用OpenClaw做了一个帮人买裤子的工具。不是商城，不是导购页，不是比价插件。是这样的：你告诉它你身高195，腰围偏细，预算三百以内，偏好简约风——它出去找，筛，比，最后把一个可以直接下单的结果还给你。做这个的人，自己就是那个买裤子困难的人。他用OpenClaw把这个流程跑通了，给自己买了两条，然后把这个Skill放到了市场上。 ...

tgje-83-when-users-become-agents-design-for-ai

当软件的用户变成Agent｜你的产品，Agent用得上吗

当软件的用户变成Agent｜你的产品，Agent用得上吗有个程序员，想做一个让Agent操控电脑的工具。调研了一圈GUI自动化方案，越研究越觉得难——识别界面元素、模拟点击、处理弹窗、应对每次系统更新带来的变化……门槛高得出奇，每往前走一步都像在和操作系统掰手腕。他陷进去好几个星期，直到看到OpenClaw把底层能力放出来，才突然想通了一件事： ...

tgje-82-token-structure-shift-chat-to-work

从聊天到干活，你的AI账单结构变了

从聊天到干活，你的AI账单结构变了自从你使用了小龙虾，你有没有注意到，用AI的花费悄悄变多了？不是因为你突然变得话多，也不是平台涨价了——而是你用AI做的事，从根本上变了。聊天是一回事，干活是另一回事。这两种用法背后的Token消耗结构，完全不在同一个量级。搞清楚这件事，才能真正看懂自己的账单。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

tgje-78-agent-cost-management-the-roi-framework

龙虾成本管理四步框架：像投资一样管你的Agent支出

龙虾成本管理四步框架：像投资一样管你的Agent支出大多数人优化龙虾成本的方式，从一开始就搞错了方向。他们在问：怎么省钱？这个问题本身没有错，但它会把你引向错误的决策——把高价值的任务也降档，最后龙虾越来越便宜，越来越没用。正确的问题是：每一块钱买到了多少价值？这是两种完全不同的思维框架。省钱思维的目标是降低总支出；投资回报思维的目标是最大化每块钱的产出。同样是月花100块，一种是把所有任务都降档后的100块，另一种是把钱集中在高价值任务上的100块——后者的产出可以是前者的十倍。 ...

tgje-77-your-agent-bill-decoded-boundaries-not-usage-cause-runaway-costs

失控的龙虾账单丨龙虾账单到底会有多少？算清楚你就不怕了

失控的龙虾账单丨龙虾账单到底会有多少？算清楚你就不怕了很多人不敢用龙虾，是因为不知道账单最后会是多少钱。订阅制的比如包月类产品你心里有底。但token按量计费不一样，它没有天花板，龙虾跑起复杂任务之后，账单会涨到哪里你完全看不见。这种看不见底的感觉，比实际的账单数字更让人退缩。但token成本不是黑箱。它有清晰的定价逻辑，有可以估算的方法，也有你现在就能设置的保护机制。把这套东西搞清楚，焦虑就消失了大半。 ...

tgje-79-agent-native-startup-opportunity-map

Agent原生创业：四类机会与选择逻辑丨基于OpenClaw生态的实战地图

Agent原生创业：四类机会与选择逻辑丨基于OpenClaw生态的实战地图很多人是在OpenClaw冲上25万GitHub Stars之后开始认真考虑这件事的。黄仁勋在GTC 2026上说，Mac和Windows是个人电脑的操作系统，OpenClaw是个人AI的操作系统。这句话之后，一批人开始问同一个问题：这上面能做什么生意？但大多数人随后发现，这个问题比想象中难回答。 ...

tgje-81-claude-code-leak-harness-in-the-wild

连Anthropic自己都翻车了，但源码里藏着一份教材

连Anthropic自己都翻车了，但源码里藏着一份教材 3月31日，Anthropic更新Claude Code的npm包时，顺手把一个60MB的调试文件打包进去发布出去了。任何人都可以用这个文件还原出Claude Code完整的TypeScript源码。1906个文件，51万行代码，全部暴露。安全研究员Chaofan Shou——Solayer Labs的一位实习生——第一个在X上发出来，帖子很快累积了超过2800万次浏览。几小时内，源码被镜像到GitHub，获得超过8.4万个Star，8.2万次Fork。 ...

tgje-80-harness-engineering-the-other-half-of-judgment

光有裁定权还不够：Harness Engineering丨判断工程的另一半

光有裁定权还不够：Harness Engineering丨判断工程的另一半 Agent能力越强，一个问题就越绕不开：你把权力边界划清楚了，裁定机制也设计好了，但Agent在实际执行过程中还是会出问题。不是越界的问题，是跑着跑着跑偏了——工具调用出错、上下文膨胀导致遗忘、多个Agent协作时指令漂移、一个环节的小错误被下一个环节放大成大错误。 ...

tgje-76-why-your-agent-always-breaks-at-the-worst-moment

你的龙虾为什么总在关键时刻掉链子

你的龙虾为什么总在关键时刻掉链子你有没有过这种体验：把一个任务交给龙虾，前几步干得很好，然后突然跑偏了，等你发现的时候它已经在错误的方向上走了很远；或者你上周告诉它的偏好，这周它完全不记得了；或者你给它装了一堆工具，它偏偏选了一个最不该选的。你怀疑是模型不够强，或者自己没用好。但事实是：这三种情况，是所有龙虾都会遇到的结构性问题，不是你的问题，也不只是模型的问题。 ...

tgje-75-a-new-internet-is-growing-beneath-the-agent

龙虾底下，正在长出一层新的互联网

龙虾底下，正在长出一层新的互联网深圳腾讯楼下，近千人排队等人帮装龙虾的那个下午，我一直在想同一个问题：装完之后呢？装完之后，大家第一件事是让它写日报、整理文件、总结会议记录。这没什么不好。但这只是龙虾能干的最表层的事，就像你买了一辆车，第一个月只用来在小区里挪车位。真正的问题不是龙虾能不能干活，而是当你让它干更重要的事——替你完成一笔采购、发一封代表你立场的合同邮件、在某个平台上以你的名义做一个决定——它拿什么证明它是你授权的？它用什么钱包付款？出了问题算谁的责任？ ...

tgje-74-your-agent-doesnt-know-you-because-you-forgot-to-feed-it-context

你的龙虾为什么不够懂你？因为你忘了喂它最重要的东西

你的龙虾为什么不够懂你？因为你忘了喂它最重要的东西同样是养龙虾，为什么差距越来越大？有人用了一个月，觉得龙虾越来越顺手——它开始懂你的工作习惯，知道你的判断标准，不用每次都从头解释。有人用了一个月，觉得龙虾还是那个原生态的龙虾，能干的事情没咋增加。两个人用的可能是同一个模型，接了差不多的工具。差距不在工具，在他们喂给龙虾的东西。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

全民养虾，你是在用AI，还是成了AI的养料？

全民养虾，你是在用AI，还是成了AI的养料？最近有一句话在圈子里流传，读完让人沉默几秒：张口闭口都是skill、MCP、OpenClaw，通宵达旦研究龙虾，到头来却分不清，是自己在用AI，还是成了AI的养料。很多人读完笑一笑就过去了。但"养料"这个词值得认真解剖一下。养料是什么？是为别人的生长提供能量，自己没有拿到对等回报的那个角色。 ...

tgje-72-wechat-opens-the-door-but-the-battle-was-already-divided

微信开放龙虾接口，入口大战要来啦？

微信开放龙虾接口，入口大战要来啦？ 3月22日，微信正式推出ClawBot插件，支持接入OpenClaw，用户扫码或复制命令，即可将龙虾接入微信，通过聊天界面直接调用。消息一出，评论区炸了。“微信失守”、“AI入口大战开打”、“飞书要凉了”——各种论调满天飞。 ...

tgje-71-rules-cant-cover-everything-thats-what-adjudication-is-for

一个AI公司CEO，被自己的龙虾上了一课

一个AI公司CEO，被自己的龙虾上了一课智谱CEO张鹏最近分享了一个细节，让我觉得比他讲的那些大趋势更有意思。他给飞书里的龙虾机器人设安全边界。他发现，只要有人在群里艾特它，它就会回答——包括他跟它私聊过的所有内容。于是他决定告诉它：什么场景能说什么，不能说什么。 “听起来简单，“他说，“其实特别复杂。” ...

tgje-70-signing-off-is-not-the-same-as-governance

亚马逊AI出事之后，出了一条没解决问题的新规

亚马逊AI出事之后，出了一条没解决问题的新规 2026年3月，亚马逊在一周之内经历了四次Sev1级重大故障。电商平台宕机近6小时，客户无法完成交易，全球最大零售机器短暂停转。紧急复盘之后，亚马逊推出了新规：初级和中级工程师的AI辅助代码变更，必须经过高级工程师签字审批后才能上线生产环境。同一周，官方发言人对外表示：近期故障"与AI无关"，“没有任何事件涉及AI撰写的代码”。 ...

tgje-69-mcp-isnt-dying-youre-misreading-a-real-flaw

MCP要死了？你被一个真实的缺点误导了

MCP要死了？你被一个真实的缺点误导了你使用MCP配过AI工作流吗？接Notion、接日历、接邮件、接GitHub。每接一个都要去找文档、调试配置、写胶水代码。折腾了一圈，你觉得自己终于把Agent武装起来了。然后打开上下文使用率一看——还没开口说一句话，200K的窗口已经去掉72%了。这不是极端案例。这是真实发生过的数字：一个开发者连了7个MCP Server，对话还没开始，上下文就只剩下三分之一。有团队甚至测出三个Server吃掉了143K，整个窗口就剩57K留给真正的工作。 ...

tgje-68-scripts-vs-skills-deterministic-vs-probabilistic

Skills还是脚本：什么时候用AI，什么时候用代码

Skills还是脚本：什么时候用AI，什么时候用代码有了AI之后，尤其是Skills之后，以前通过脚本实现的自动化任务，很多都可以通过Skills来轻松实现了。很多人从脚本转向Skills，但发现Skills确实强大并且易用，但是有些任务执行不稳定，好的时候非常完美，但是有些时候又差强人意，好像突然就智商掉线了。所以很多人就很纠结，到底该如何选？继续脚本还是Skills。 ...

Skills：让AI真正懂你的工作方式

Skills：让AI真正懂你的工作方式用过AI一段时间之后，大多数人都会遇到同一个隐性摩擦：每次开始新对话，你都要重新交代背景。你的写作风格、团队的命名规范、项目的技术栈、客户沟通的口吻——每次都要解释一遍。AI并不是不够聪明，而是它每次都从一张白纸开始。这个摩擦大家已经习惯，因为它一直都是这样。如果你算一算，每次对话花在"让AI理解你的工作方式"上的时间，加起来是相当可观的重复，如何解决？ ...

Agent的手：工具调用是什么

Agent的手：工具调用是什么系列一的前几篇讲清楚了Agent是什么、怎么理解它的主动性、怎么迈出使用的第一步。但有一个更基础的问题一直没有正面回答： Agent为什么能"做事"，而不只是"说话"？这篇来回答这个问题。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

tgje-65-copilot-cursor-claude-code-dna-not-features

编程型Agent怎么选：Cursor、Claude Code、Copilot的真实差异

编程型Agent怎么选：Cursor、Claude Code、Copilot的真实差异如果你是程序员，上一篇的框架已经帮你缩窄了范围：编程场景用编程型Agent，也就是Cursor、Claude Code、GitHub Copilot这个阵营。但在这三个里面怎么选，又是另一个问题。网上的对比文章很多，大多数在比参数、比功能列表、比价格。这篇想做一件不同的事：从基因角度比工作哲学。每个工具的出身决定了它的设计取向，这些取向在今天仍然清晰可辨——尽管市场正在走向融合，三者的差异化特征会越来越不明显，但理解它们的基因，是选对工具的起点。 ...

tgje-64-when-accountability-disappears-organizations-ban

从千人排队到强制卸载，同一周发生了什么

从千人排队到强制卸载，同一周发生了什么 2026年3月6日，深圳腾讯云总部，近千人排队等待安装OpenClaw。 2026年3月8日，工信部发布安全预警。 2026年3月13日，多所高校发出通知：严禁使用，已安装的立即彻底卸载。同一个工具，同一周，两种截然相反的社会反应。在急着评判谁对谁错之前，值得先问一个问题：为什么会这样？ NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...

你养了一只龙虾，然后呢？

你养了一只龙虾，然后呢？很多人的Agent使用轨迹长这样：激动地安装、跑通第一个任务、截图发朋友圈，然后……没了。不是放弃了。龙虾还活着，就在那儿，账号还在，软件还开着。只是你已经好几天没打开它了。如果你问自己为什么，大概率得到一个模糊的答案：“还没想好用来干什么。” 这就是问题所在。 NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。 ...