提示词越详细,Agent跑得越好?丨Agent误解系列

提示词写得超详细,Agent还是跑偏了。
你的第一反应几乎是本能的:没说清楚,再加一段。于是你加了背景、加了示例、加了注意事项,改完之后提示词更详细。但是再跑一遍,Agent还是在关键地方出了偏差。
这时候你可能开始怀疑模型——它怎么就是不听?
真正的问题,不在提示词的信息量,在信息放的位置。
NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。
为什么"越详细越好"的直觉会形成
这个直觉来自人际沟通的经验,而且在那个场景里完全成立。
你跟同事交代一个任务,说得越细、背景给得越全,对方理解偏差的概率就越低。因为人在处理信息时会主动抓重点——扫一眼,把最关键的东西提到前台,过滤掉和手头任务无关的部分。就算你的交代顺序不完美,他也能重新整理一遍,理解你真正的意思。
我们把这套经验直接带进了提示词写作。信息给得越充分,Agent理解越准确——这个逻辑听起来无懈可击。
但它有一个前提:处理信息的那一方,会主动抓重点。
模型读提示词的方式,跟人不一样
模型处理你的提示词,走的不是"扫一遍抓重点"这条路。
它对Context(上下文)做的是注意力计算——对序列里每个位置的信息赋予不同的权重。研究发现,这个权重分布有一个固定的偏向:头部和尾部的信息权重最高,中间部分的注意力天然偏弱。
这个现象有个专门的名字,叫Lost in the Middle(中间丢失效应)。斯坦福和UC伯克利的研究团队最早在2023年记录了这一现象,后续被大量研究复现:当关键信息放在Context中间位置时,模型的准确率相比放在头尾位置会下降超过30%。2025年Chroma的研究测试了18个主流模型,包括GPT-4.1、Claude Opus 4、Gemini 2.5,结果是全部都受到影响——新模型减轻了这个效应,但没有任何模型能完全消除它。
这意味着什么?
你把最重要的约束条件放在提示词中间——对人来说这完全正常,对模型来说,那个位置的权重是最低的。
堆字数带来的三个反效果
理解了这个机制,“越详细越好"的逻辑就开始松动了。堆字数,可能带来三个你没预期到的反效果。
关键约束被淹没。 提示词越长,头尾的比例就越小,中间区域越大,关键信息被推到中间的概率越高。你加的每一段背景说明,客观上都在把核心约束往中间挤。
举个具体的例子:你让Agent帮你整理客户反馈,提示词里写了三段背景(这个产品是什么、客户群体是谁、过去做过哪些改进),然后在第四段的中间写了最关键的约束——“只整理评分低于3分的反馈”。这条约束埋在中间,权重最低。Agent跑完,给你整理了所有评分的反馈。从流程上看,它完成了任务。
模糊要求堆再多还是模糊。 “请确保输出专业”、“注意语气要友好”、“内容要有逻辑性”——这类要求叠加10条,对Agent来说仍然是10条没有可验证标准的指令。字数增加了,约束的清晰度没有增加。
相互矛盾的要求同时出现。 提示词越长,写出自相矛盾要求的概率越高。“回答要简洁"和"每个要点都要展开说明"放在同一段提示词里,模型遇到这种情况时,会自己选一个执行——选哪个,你控制不了。
真正起作用的,是位置和形式
字数不是提示词质量的指标。决定提示词质量的,是两件跟字数无关的事。
第一件:关键信息放对位置。
最重要的约束,放在开头或结尾,不要埋在中间。不是因为这样"看起来更清晰”,是因为这两个位置的注意力权重最高,信息被处理到的概率最大。
还是上面整理客户反馈的例子,改写之后:
只整理评分低于3分的反馈。(第一句) 背景:这个产品面向…客户群体是…过去改进过… 输出格式:…
核心约束在第一句,背景在中间,格式要求在最后。内容没有变,位置换了,模型抓到关键约束的概率大幅提高。
第二件:约束写成可验证的形式。
可验证的意思是:读完这条约束,能判断Agent做没做到。
“回答要专业”——不可验证,“专业"是什么标准,每个人理解不同,Agent也没有统一依据。 “不使用行业术语,每个概念用一句话给出白话解释”——可验证,做没做到,一眼就能判断。
“内容要简短”——不可验证。 “总字数不超过150字”——可验证。
这两件事,一个解决位置问题,一个解决形式问题。都不需要加字数,都不需要写得更详细。
检查你现在的提示词
有一个很简单的自检方法,两个问题:
最重要的那条约束,现在在第几行? 如果答案不是前三行,把它挪过去——不用重写整个提示词,只是换位置。
这条约束,陌生人读完能判断Agent做没做到吗? 如果答案是"不确定”,把它改写成有客观标准的形式。
不是提示词太短,是结构需要调整。绝大多数时候,提示词优化需要的不是"加”,是"挪"和"改"。
写在最后
提示词越来越长的背后,通常是一种焦虑:是不是没说清楚,再加一段会不会好一点。
这个焦虑可以理解,但它指向的方向是错的。模型不会因为你给它更多信息就更聪明地抓重点——关键信息没放对位置,它就是会被权重更高的头尾内容盖过去。
真正的提示词优化,不问"我有没有说够",问的是"最关键的那句话,现在在哪里"。
感谢你看到最后,如果你觉得有启发,随手点个赞、在看、转发吧,如果想第一时间收到推送,也可以给我加个星标⭐我们下期见。
我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
「塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。
