📌 TL;DR: 你和AI说话,它不是在"理解"你,是在做概率推算——从训练数据里推算你这句话后面最可能跟的内容是什么。你脑子里的默认共识、工作背景、隐性标准,它一概不知道。 这就解释了为什么指令说清楚了结果还是不对:你漏掉的不是措辞,是大量"不言自明"的信息——目标是什么、约束是什么、受众是谁、做到什么程度算完成。 四个维度的检查框架不是要你写格式化的提示词模板,而是帮你养成一个习惯:每次写完指令,扫一眼有没有漏掉隐性信息。 记住一个动作就够了:写完指令,想象一个完全不了解你的陌生人只看这段文字,他能完成任务吗?他卡住的地方,就是你需要补的地方。

你和AI说话,它听到的不是你以为的那句话

信息图

你有没有遇到过这种情况:

明明说得很清楚,AI给的结果却完全不是你要的。你以为自己表达有问题,改了几次措辞,还是不对。

同样一句话,有时候AI能答得很好,有时候差得离谱。

问题不在于你的表达能力,在于AI"理解"语言这件事的底层机制和我们想的有些不一样。


NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。

* * *

AI"理解"语言,和你以为的不一样

人和人之间说话,有大量信息是不需要说出口的。

你对同事说"帮我整理一下昨天的会议记录",对方自动脑补了一系列默认共识:整理成文字版、按讨论顺序排列、重点标出来、发给相关的人——这些你一个字都没说,但对方都懂。因为你们有共同的工作背景、共同的习惯、共同的"会议记录长什么样"的概念。

这种默认共识是人类沟通的基础。我们把它叫做语境。大量信息活在语境里,不需要被说出来。

AI没有这一层。

它理解语言的方式是:从海量训练数据里学习词语之间的共现模式——什么词后面经常跟什么词,什么句式通常对应什么类型的回答。你发给它一句话,它在做的事情,是根据这些统计规律,推算出"接下来最可能出现的内容是什么"。

这不是理解,这是概率推算。

所以你说"帮我整理一下会议记录",它算出来的,是训练数据里"整理会议记录"后面最常见的输出形式——不一定是你这次具体要的那种。你脑子里的默认共识,它没有。

这就是为什么你觉得说清楚了,它给的结果还是不对。不是它笨,是它和你之间没有共同语境——那些你觉得"不言自明"的部分,对它来说根本不存在。

你在对话里给AI的背景信息,其实就是在手动补充它缺失的语境。这就是为什么同一个问题,前面铺垫越多、背景越清晰,答案往往越准。机制是一样的。


你的指令里藏着多少"不言自明"

来做一个实验。

假设你要让Agent帮你写一封邮件,你写下这条指令:

帮我写一封邮件,让对方把会议改期。

在你脑子里,这句话包含了大量隐性信息:这是一封工作邮件、对方是你的客户、语气要礼貌但不失专业、不需要解释太多理由、字数不要太长、用中文写。这些你一个字都没写,所以AI它不知道。它只知道你说的那句话。

于是它给你写了一封——也许格式正确、措辞流畅,但语气可能太随意,或者太正式,或者用了英文,或者洋洋洒洒写了五百字,或者只写了两句话。每一种结果都说得过去,就是不一定是你要的那个。

你的指令里藏着的隐性信息,大致分为这几类:你要的结果是什么、有什么约束条件、输出给谁看、做到什么程度算完成。 这四类信息在人和人之间可以靠语境传递,但在你和AI之间,必须被显式地写出来。


四个维度,把隐性信息搬进文字

这不是让你写一份格式化的指令模板,而是一个检查框架:写完指令之前,确认这四个维度有没有说清楚。

第一,目标维度——你要的是结果,不是动作。

“帮我写邮件"是动作,“写一封让对方同意把会议从周三改到周五的邮件"是结果。动作描述留给AI太大的解释空间,结果描述把终点钉死了。指令越靠近结果描述,AI猜错的余地就越小。

第二,约束维度——什么不能做,边界在哪里。

字数上限、必须包含的信息、不能出现的内容、格式要求——这些约束条件在你脑子里是默认存在的,但AI不知道。约束说得越清楚,输出就越可控。“不超过150字"“不提具体原因"“用正式的商务语气”——这些都是有效的约束,写进去就不需要事后调整。

第三,受众维度——输出给谁看。

同样一份内容,给自己老板看和给下属看,深度、语气、专业程度完全不同。给客户看和给内部团队看,措辞取舍也不一样。受众定义得越清楚,AI在语气和深度上的判断就越准。“对方是我们的新客户,还不熟悉我们的产品"和"对方是合作五年的老客户”——这两句话会让输出结果产生显著差异。

第四,验证维度——怎么算做完。

这是最容易被忽略的一个维度。AI需要知道"完成"长什么样,否则它自己定义完成标准——而它的标准和你的标准,可能完全不同。“做完之后列出三个可执行的下一步"“用一句话总结核心结论"“输出一个可以直接复制使用的版本”——这类验证描述,相当于告诉AI终点在哪里。


一个上手就能用的自检方法

四个维度记不住也没关系,记住这一个动作就够了:

写完指令之后,做一个心理实验。

把自己想象成一个完全陌生的人,没有任何背景信息,只能看到你写的这段文字。他能完成这个任务吗?能,指令就写够了。不能,他卡住的地方,就是你需要补进去的隐性信息。

这个方法的本质,是强迫你从"我知道我要什么"切换到"我有没有把我要的东西说出来”。这两种视角之间的差距,就是你的指令现在的问题所在。

用几次之后会变成直觉。写完指令自然就会扫一眼:结果说清楚了吗?约束有没有漏?受众是谁?怎么算完成?


写在最后

写指令这件事,本质上不是文字问题,是信息传递问题。

你和AI之间的信息不对称是结构性的——它没有你的生活背景,没有你的工作习惯,没有你脑子里那套"不言自明"的默认共识。这个不对称不会自动消失,只会随着你主动补充信息而缩小。

你的工作,是把隐性的东西显式化。把默认共识变成文字,把你以为对方应该懂的部分,老老实实地写出来。

指令写好了,不是AI变聪明了,是你和它之间的信息差变小了。

这个认知,比任何指令技巧都更值得先装进脑子里。


我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:

塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。

塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025