📌 TL;DR: 需求文档只能捕捉客户能描述清楚的那部分需求，但决定AI系统能否真正被用起来的，往往是没说出来的规则和客户自己都不知道的需求。大语言模型还有传统SaaS没有的失败方式，这些问题不进现场根本发现不了。发现阶段有三件事同时推进：和三类人（高管、IT、一线用户）做三种对话，每类人掌握的信息完全不同；对四类现状（数据、系统、权限、人）做完整诊断，画出这个环境的真实地图；按低风险、高可见、可迭代三个标准，选定第一个落地点。选点有个反直觉：不是选最重要的问题，是选最适合先动的问题。最重要的问题往往风险高、依赖复杂、反馈周期长，第一个就做是在赌博。先建立成功经验，再向核心问题推进。发现阶段结束的标志不是一份文档，是一句三方都认可的话：我们要解决X问题，通过Y方式，成功标准是Z。这句话写出来很容易，但要让它真正准确，三类对话、四类诊断、选点判断缺一不可。

发现阶段：FDE进场之后的三件事丨三类对话、四类现场诊断、三个选点

信息图

上一篇说，发现阶段结束的标志是一句双方都认可的问题定义——可以说清楚，可以被衡量。

这篇讲怎么把客户一开始说的那句模糊的话，变成那句清晰的定义。

FDE进场之后，有三件事要同时推进：翻译需求、诊断现场、选定第一个落地点。这三件事不是顺序完成的，是在同一段时间里交织进行的。把它们分开讲，是为了说清楚每件事的逻辑；实际操作里，你和用户对话的同时就在诊断现场，诊断现场的过程里就在筛选落地点。

NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。

需求文档，捕捉不到真正的问题

先说一个案例。

客户找来，说想用AI优化客服流程，把一线人工处理量降低60%。高管签了合同，PM把这个目标拆成了一堆需求子任务，开发团队开始动工。三个月后，系统上线，技术指标全部达标——但用户不用，或者用了之后各种不满意。

出了什么问题？

不是模型不够好，不是工程质量差。是有一条不成文的规则从来没有人说出来：这家公司的客服团队有个内部约定，凡是涉及老客户的投诉，必须由人工处理，不走自动化流程。这条规则存在于团队的肌肉记忆里，没有写进任何文档，高管不知道，PM不知道，开发团队当然也不知道。

AI系统上线之后，第一批被转给自动化流程的，恰好有几个老客户投诉。结果可想而知。

这类问题有一个共同特点：它们往往不会出现在需求文档里，只有进了现场，和真实用户坐在一起，才有机会被发现。

需求文档能捕捉到的，只是客户能描述清楚的那部分需求。但决定一个AI系统能否真正被用起来的，往往不是这部分。

实际上，任何一个落地项目里，需求大致分三层：

第一层是明说的需求——客户能描述清楚、可以写进文档的。这部分最容易处理，也最容易被当成全部。

第二层是没说出来的需求——客户知道，但没想到要说，或者觉得理所当然不用说。上面那条不成文的规则就属于这一层。

第三层是客户自己也不知道的需求——只有在真实使用场景里才会暴露。系统上线之后，用户在用的过程中发现某个功能不对劲，说不清楚哪里不对，但就是用着别扭——这种反馈背后，往往是第三层需求没有被挖出来。

大语言模型有一类传统软件没有的失败方式，而且这类失败在测试阶段几乎发现不了。

传统软件出错，通常会报错、返回错误码、或者直接崩溃——用户知道出问题了。但大语言模型出错的方式不一样，它不报错，它继续生成内容，只是内容是错的。

三种具体情况：

测试阶段用的都是标准问法，模型表现很好。但真实用户的问法千奇百怪，遇到模型没见过的表达方式，它不会说"我不懂"，而是自信地给出一个错误答案——用户完全不知道答案是错的。

企业的知识库如果文档格式混乱、分块不合理，模型检索不到相关内容，但它不会说"没找到"，而是用自己的训练知识编一个听起来合理的回答。

企业内部有很多专业术语，听起来像敏感词但其实是正常业务用语。某家公司内部把一类高风险客户叫"黑名单用户"，模型看到"黑名单"可能直接拒绝回答，或者跳出警告。用户只是问了个正常业务问题，却被系统当成了违规请求。

这三种情况的共同点：需求文档里不会写"请确保模型在这些边缘情况下表现正常"，因为客户自己也不知道这些边缘情况存在。只有进了现场，和真实用户一起使用，这些问题才会暴露出来。

这就是发现阶段必须有人进场的根本原因。远程的需求收集，能覆盖第一层，偶尔能碰到第二层，第三层基本是碰不到的。

三类对话：和不同的人问不同的问题

进了现场，要和谁谈，谈什么？

不同层级的人，掌握的信息完全不同，要问的问题也完全不同。把三类人的对话混在一起，或者只和其中一类人谈，拼出来的需求图都是残缺的。

第一类：高层决策者

高管签了合同，他们代表这个项目的方向和资源。和高管谈，不是问功能列表，而是问成功标准和失败边界。

两个问题最重要：“你怎么判断这件事做成了？“和"什么情况下你会叫停？”

第一个问题让高管说出他们真正在乎的指标——不是技术指标，是业务指标。降低多少成本，提升多少效率，用什么来衡量。这个答案会成为整个项目的北极星。

第二个问题同样重要，但更少有人问。高管的容忍边界在哪里，哪些情况是绝对不能发生的，出了什么事项目会被叫停。知道了失败边界，才能在设计阶段就把护栏建好，而不是等出了事再补。

高管离实际使用场景最远，他们给的是方向，但他们描述的需求和一线用户的真实需求之间，往往有很大的落差。这个落差本身，就是发现阶段要找到的东西之一。

第二类：系统管理员和IT团队

这类对话是摸清技术现状的。

数据在哪里，格式是什么，有没有现成的接口，遗留系统的状态如何，合规要求卡在哪里，审批链有多长。这层对话往往会暴露大量在规划阶段完全没有预料到的障碍。

有一个问题值得单独问：“有哪些系统是我们绝对不能动的？“每个企业都有几个使用很久、文档很少、但业务高度依赖的系统。知道这些系统在哪里，能提前规避大量后期的集成风险。

第三类：一线终端用户

这类对话是最容易被跳过的，也是信息密度最高的。

每周使用系统四十小时的分析师，知道的东西是高管和IT都不知道的。和他们对话，不是问"你需要什么功能”，而是跟着他们走一遍实际的工作流程：你现在怎么处理这类任务？哪个环节最耗时？哪里最容易出错？遇到边缘情况怎么处理？

这个过程里，不成文的规则会自然浮现。不是因为用户主动说出来，而是因为你在看他们操作的时候会发现一些奇怪的步骤，问一句"为什么这里要这样做”，答案往往是"我们一直这样做”——背后就是一条没有写进任何文档的规则。

三类对话做完，你手里有三个版本的"需求"。这三个版本通常出入很大，把它们拼在一起，才能找到真正的需求所在。

四类现场诊断：先画地图，再动工

翻译需求的同时，要对现场做一次系统性的诊断。

诊断的目的不是找问题——进场之后问题多得很，如果只是找问题会没完没了。诊断的目的是画地图：这个环境里有什么、缺什么、能碰什么、不能碰什么。有了这张地图，后续的工程工作才能在现实条件下展开，而不是在假设条件下规划。

四类要摸清楚的现状：

数据现状

数据是AI系统的燃料，但很多项目在进场之后才发现，燃料是散的、脏的，或者根本拿不到。

要摸清楚的是：数据在哪些系统里，格式是什么，质量怎么样，有没有大量缺失，有没有使用限制。特别要注意的是"数据在哪里"这个问题——很多企业的数据分散在三到五个不同的系统里，格式各不相同，没有统一的接口，每个系统背后还有不同的数据权属和访问权限。

把这些摸清楚之后，经常会发现原本设想的方案需要大幅调整，因为数据的真实状态和规划时的假设之间有很大的距离。

系统现状

现有系统的架构是什么，有哪些接口是可用的，有哪些早就停止维护但还在跑。

遗留系统是这类诊断里最容易踩坑的地方。很多企业有十年以上的老系统，文档早就不全了，维护的人可能也已经离职，但业务流程高度依赖它。这类系统的接口状态，往往只有进场实际测试才能知道。

权限现状

谁能批什么，审批链有多长，合规部门的要求卡在哪里。

大多数企业障碍不是被说出来的，是被发现的。权限和合规障碍尤其如此——不是因为有人故意隐瞒，而是这类信息在组织内部本身就是分散的，没有一个人能全部掌握。把它们拼出来，需要和多个部门分别确认。

这类障碍不是工程问题，是组织问题。工程师能解决技术上的集成难题，但改变审批流程、推动合规豁免，需要借助客户内部的推动力量。这也是为什么发现阶段要找到内部推动者——技术问题之外，有很多事情需要有人在内部帮着推。

人的现状

谁是真正支持这个项目的人，谁会有阻力，团队对AI的信任程度在哪里。

内部推动者不等于签合同的高管。推动者是那个真正在乎这件事能否做成、愿意在内部帮你扫清障碍的人。从第一周就找到这个人，从第二周就让他参与进来，是后续所有工作能顺利推进的基础。

阻力的来源值得认真对待，不只是要绕开它。很多时候，阻力背后是合理的顾虑——担心AI出错影响客户、担心数据安全、担心工作流程被打乱。把这些顾虑提前摸清楚，在系统设计里就把对应的保护机制建好，比上线之后再处理阻力要省力得多。

三个选点标准：第一个落地点怎么选

翻译完需求、诊断完现场，发现阶段的第三件事是选定第一个真正动手的落地点。

这个选择很重要。第一个项目成功了，会给整个AI落地计划带来信任和动力，后续推进会容易得多。第一个项目失败了，不只是这个项目本身的问题，会让整个AI计划在组织里的信用受损，后续每一步都要先处理信任问题。

选点有三个标准，缺一不可：

低风险

出了问题不会造成严重后果，有容错空间。

第一个落地点的任务不是验证AI有多强，是建立信任。在信任还没有建立的阶段，容错空间非常重要——万一出了问题，要能回滚，要能解释，要不影响核心业务。

客服流程的分流、内部文档的搜索、报表的初稿生成——这类场景出了问题影响有限，适合作为第一个落地点。核心业务系统、财务决策、合规审批——这类场景出了问题代价很高，不适合作为第一个起点。

高可见

成果容易被感知，利益相关方能看到变化。

AI落地项目需要持续的内部支持。如果第一个落地点的效果要靠分析报告才能感知，普通利益相关方看不到变化，项目很容易在内部失去支持。

最好的选点，是成果可以被直接感受到的——处理时间明显缩短，错误明显减少，某个过去很烦人的步骤消失了。这类变化不需要看数据，用户自己就能感受到，感受到了就会开始信任系统。

可迭代

结果可以被测量，可以快速调整。

如果第一个落地点的效果要等三个月才能看到，反馈循环就断了。FDE需要在短周期内知道方向对不对，需要有足够的真实反馈来调整。

可迭代意味着：有清晰的输入输出，结果可以被评测，每次调整之后能快速验证效果是否改善。

这里有一个反直觉的地方：选点不是选最重要的问题，而是选最适合先动的问题。最重要的问题往往风险高、依赖复杂、反馈周期长，放在第一个做是在赌博。先在一个小点上建立成功经验，再向核心问题推进——这不是回避困难，是给整个项目争取足够的信任储备和迭代空间。

发现阶段结束的标志

三件事做完之后，发现阶段结束的标志是一句话，不是一份文档。

这句话的结构是：“我们要解决X问题，通过Y方式，成功的标准是Z。”

X是经过三类对话之后找到的真正问题，不是客户一开始说的那句模糊的话。Y是在四类现场诊断之后，在这个环境的真实条件下可行的方式。Z是高管认可的、可以被衡量的成功标准。

这句话写出来之后，需要让三类人都认可——高管、IT、一线用户。如果三方对这句话的理解有出入，说明翻译工作还没有完成，不能进下一个阶段。

看起来简单，但要让这句话真正准确，需要那三类对话、一次完整的现场诊断、一个选点判断。少了任何一步，这句话表面上清晰，实际上还是模糊的——只是把模糊藏得更深了。

写在最后

发现阶段产出的东西看起来不多——一句话，一张地图，一个选点判断。没有代码，没有演示，没有可以点击的原型。

这也是它最容易被压缩的原因。客户等着看成果，内部有推进压力，把发现阶段砍掉一半进入开发，看起来效率更高。

但方向错了，后面越努力，偏得越远。发现阶段花的每一天，都在给后续的工程投入定方向。这个方向对了，工程阶段是在积累；方向错了，工程阶段是在消耗。

下一篇进原型阶段——有了问题定义和选点，怎么在客户的真实数据上快速验证方向，在写生产代码之前把方向确认下来。

感谢你看到最后，如果你觉得有启发，随手点个赞、在看、转发吧，如果想第一时间收到推送，也可以给我加个星标⭐我们下期见。

我是「AioGeoLab」主理人塔迪Tardi，AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室，目前有两个主要研究方向：
「塔迪GEO判断工程」是基于GEO的价值SEO化，在AI从“说”到“做”的重要跃迁阶段，试图回答，如何让AI敢于行动、不因为责任问题而畏手畏脚，而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践，深层共鸣的探索。不是用AI解读经典，也不是用经典指导AI。这是一场跨越2500年的对话，在算法与古老智慧之间，照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。

发现阶段：FDE进场之后的三件事丨三类对话、四类现场诊断、三个选点#

需求文档，捕捉不到真正的问题#

三类对话：和不同的人问不同的问题#

四类现场诊断：先画地图，再动工#

三个选点标准：第一个落地点怎么选#

发现阶段结束的标志#

写在最后#