📌 TL;DR: 提示词写了800字Agent还是跑偏了，第一反应是再加一段。这个直觉来自人际沟通——信息给得越全，对方理解越准确。但它有一个隐含前提：处理信息的那方，会主动抓重点。模型不会。模型处理Context靠注意力权重，头尾权重高，中间天然偏弱。研究记录了这个现象：关键信息放在中间位置，准确率相比放在头尾会下降超过30%。提示词越长，中间区域越大，关键约束被推到低权重区域的概率越高。堆字数带来三个反效果：关键约束被淹没在背景信息里、模糊要求叠加多少条还是模糊、相互矛盾的要求同时出现模型自己选一个执行。这三个问题，加字数一个都解决不了。真正起作用的是两件事：关键信息放头尾而不是埋中间，约束条件写成"陌生人读完能判断做没做到"的可验证形式。提示词优化大多数时候需要的不是"加"，是"挪"和"改"。

提示词越详细，Agent跑得越好？丨Agent误解系列

信息图

提示词写得超详细，Agent还是跑偏了。

你的第一反应几乎是本能的：没说清楚，再加一段。于是你加了背景、加了示例、加了注意事项，改完之后提示词更详细。但是再跑一遍，Agent还是在关键地方出了偏差。

这时候你可能开始怀疑模型——它怎么就是不听？

真正的问题，不在提示词的信息量，在信息放的位置。

NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。

为什么"越详细越好"的直觉会形成

这个直觉来自人际沟通的经验，而且在那个场景里完全成立。

你跟同事交代一个任务，说得越细、背景给得越全，对方理解偏差的概率就越低。因为人在处理信息时会主动抓重点——扫一眼，把最关键的东西提到前台，过滤掉和手头任务无关的部分。就算你的交代顺序不完美，他也能重新整理一遍，理解你真正的意思。

我们把这套经验直接带进了提示词写作。信息给得越充分，Agent理解越准确——这个逻辑听起来无懈可击。

但它有一个前提：处理信息的那一方，会主动抓重点。

模型读提示词的方式，跟人不一样

模型处理你的提示词，走的不是"扫一遍抓重点"这条路。

它对Context（上下文）做的是注意力计算——对序列里每个位置的信息赋予不同的权重。研究发现，这个权重分布有一个固定的偏向：头部和尾部的信息权重最高，中间部分的注意力天然偏弱。

这个现象有个专门的名字，叫Lost in the Middle（中间丢失效应）。斯坦福和UC伯克利的研究团队最早在2023年记录了这一现象，后续被大量研究复现：当关键信息放在Context中间位置时，模型的准确率相比放在头尾位置会下降超过30%。2025年Chroma的研究测试了18个主流模型，包括GPT-4.1、Claude Opus 4、Gemini 2.5，结果是全部都受到影响——新模型减轻了这个效应，但没有任何模型能完全消除它。

这意味着什么？

你把最重要的约束条件放在提示词中间——对人来说这完全正常，对模型来说，那个位置的权重是最低的。

堆字数带来的三个反效果

理解了这个机制，“越详细越好"的逻辑就开始松动了。堆字数，可能带来三个你没预期到的反效果。

关键约束被淹没。 提示词越长，头尾的比例就越小，中间区域越大，关键信息被推到中间的概率越高。你加的每一段背景说明，客观上都在把核心约束往中间挤。

举个具体的例子：你让Agent帮你整理客户反馈，提示词里写了三段背景（这个产品是什么、客户群体是谁、过去做过哪些改进），然后在第四段的中间写了最关键的约束——“只整理评分低于3分的反馈”。这条约束埋在中间，权重最低。Agent跑完，给你整理了所有评分的反馈。从流程上看，它完成了任务。

模糊要求堆再多还是模糊。 “请确保输出专业”、“注意语气要友好”、“内容要有逻辑性”——这类要求叠加10条，对Agent来说仍然是10条没有可验证标准的指令。字数增加了，约束的清晰度没有增加。

相互矛盾的要求同时出现。 提示词越长，写出自相矛盾要求的概率越高。“回答要简洁"和"每个要点都要展开说明"放在同一段提示词里，模型遇到这种情况时，会自己选一个执行——选哪个，你控制不了。

真正起作用的，是位置和形式

字数不是提示词质量的指标。决定提示词质量的，是两件跟字数无关的事。

第一件：关键信息放对位置。

最重要的约束，放在开头或结尾，不要埋在中间。不是因为这样"看起来更清晰”，是因为这两个位置的注意力权重最高，信息被处理到的概率最大。

还是上面整理客户反馈的例子，改写之后：

只整理评分低于3分的反馈。（第一句）背景：这个产品面向…客户群体是…过去改进过… 输出格式：…

核心约束在第一句，背景在中间，格式要求在最后。内容没有变，位置换了，模型抓到关键约束的概率大幅提高。

第二件：约束写成可验证的形式。

可验证的意思是：读完这条约束，能判断Agent做没做到。

“回答要专业”——不可验证，“专业"是什么标准，每个人理解不同，Agent也没有统一依据。 “不使用行业术语，每个概念用一句话给出白话解释”——可验证，做没做到，一眼就能判断。

“内容要简短”——不可验证。 “总字数不超过150字”——可验证。

这两件事，一个解决位置问题，一个解决形式问题。都不需要加字数，都不需要写得更详细。

检查你现在的提示词

有一个很简单的自检方法，两个问题：

最重要的那条约束，现在在第几行？ 如果答案不是前三行，把它挪过去——不用重写整个提示词，只是换位置。

这条约束，陌生人读完能判断Agent做没做到吗？ 如果答案是"不确定”，把它改写成有客观标准的形式。

不是提示词太短，是结构需要调整。绝大多数时候，提示词优化需要的不是"加”，是"挪"和"改"。

写在最后

提示词越来越长的背后，通常是一种焦虑：是不是没说清楚，再加一段会不会好一点。

这个焦虑可以理解，但它指向的方向是错的。模型不会因为你给它更多信息就更聪明地抓重点——关键信息没放对位置，它就是会被权重更高的头尾内容盖过去。

真正的提示词优化，不问"我有没有说够"，问的是"最关键的那句话，现在在哪里"。

感谢你看到最后，如果你觉得有启发，随手点个赞、在看、转发吧，如果想第一时间收到推送，也可以给我加个星标⭐我们下期见。

我是「AioGeoLab」主理人塔迪Tardi，AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室，目前有两个主要研究方向：
「塔迪GEO判断工程」是基于GEO的价值SEO化，在AI从“说”到“做”的重要跃迁阶段，试图回答，如何让AI敢于行动、不因为责任问题而畏手畏脚，而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践，深层共鸣的探索。不是用AI解读经典，也不是用经典指导AI。这是一场跨越2500年的对话，在算法与古老智慧之间，照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。

提示词越详细，Agent跑得越好？丨Agent误解系列#

为什么"越详细越好"的直觉会形成#

模型读提示词的方式，跟人不一样#

堆字数带来的三个反效果#

真正起作用的，是位置和形式#

检查你现在的提示词#

写在最后#