📌 TL;DR: 幻觉是语言模型的结构性特征，不是bug，消不掉，只能压低。GPT-5.5 Instant的52.5%降幅是真实进步，但这个数字来自聊天场景的内部测试，不是Agent执行任务场景下的衡量。两者的本质差异在于：聊天里幻觉是终点，人会看到并纠正；Agent执行链里幻觉是起点，会沿着任务链继承、放大、触发真实操作。执行链里的幻觉有三种传播模式：继承式传播、工具调用放大、多Agent传染，复杂度越高破坏面越大。降低幻觉危害的关键不只是选更低幻觉率的模型，而是设计让幻觉尽早暴露的执行结构：分段验证、标注置信度、不可逆操作前加人工节点。

GPT5.5幻觉率降了52.5%——但有一件事，这个数字没告诉你

信息图

这周OpenAI把ChatGPT的默认模型升级到了GPT-5.5 Instant。这是他们面向所有用户——包括免费用户——推送的新版本，升级公告的第一条就是：在医疗、法律、金融等高风险场景中，幻觉率较上一代降低了52.5%。

数字很好看，方向也是对的。

但如果你正在用AI Agent处理真实任务，有一件比这个数字更重要的事需要知道：幻觉在聊天里出错，和幻觉在Agent执行链里出错，是两种完全不同的事。

NotebookLM的音视频概览，解读的比较通俗易懂，对于时间比较紧张的读者朋友，可以听听，会有启发。

* * *

幻觉是什么，为什么它消不掉

先把基础讲清楚，不绕弯子。

幻觉，就是模型用自信的语气说了错的事。不是偶尔搞错，而是结构性地、系统性地会出现这种情况。

为什么？因为语言模型生成内容的方式，不是"查找事实"，而是"预测下一个最合理的词"。每生成一个字，模型都在问：接下来什么词出现的概率最高？这套机制让它能写出流畅的文字、合理的逻辑——但同时也意味着，它没有一个内部的事实核查层。当它缺少某个知识时，它不会停下来说"我不确定"，而是会生成一个听起来合理的答案。

模型不知道自己不知道。这是概率预测的天然副产品，不是某个产品的特定bug。

所以幻觉率能降低，但不能归零。52.5%的降幅是真实的进步——但它降的是频率，不是这个结构性特征本身。幻觉还在，只是少了一些。

聊天里的幻觉，和执行链里的幻觉

这是这篇文章最核心的一个区分。

在聊天场景里，幻觉是终点。

它说错了，你看到了，代价止于这里。你可以选择相信，或者去查一下。就算信了错误的，损失也局限在你这里，链条到此结束。这是一个"输出即终点"的结构。

在Agent执行场景里，幻觉是起点。

它带着这个错误的信念，继续往下走——调用工具、写入数据、发送请求、触发下一步操作。幻觉不只是一个错误的输出，而是一个错误的输入，会被后续所有步骤继承，层层放大。

举一个具体的场景：

你让Agent做竞品分析。它在信息收集阶段，幻觉了一个竞品"已上线某功能"——这个功能其实并不存在。它把这条信息写进了分析报告，报告被决策层参考，团队基于这个错误前提调整了产品路线图。

幻觉发生在第一步。代价结算在最后一步。中间隔着整条执行链，没有人看到中间发生了什么。

这个结构，和聊天里说错一句话，是完全不同量级的事。

执行链里，幻觉怎么传播

把危险讲得更具体一点。执行链里的幻觉，大致有三种传播模式：

继承式传播

幻觉的输出被当成正确的输入，直接进入下一步。链条越长，错误传递越深，到最后一步时，初始的那个幻觉已经被"合理化"了好几层，很难再往回追溯。

工具调用放大

幻觉触发了一个真实的工具调用。它用错误的关键词发起了搜索，用错误的参数写入了数据库，用错误的前提发送了一封邮件。工具执行的结果是真实发生的——但整个操作建立在一个幻觉的前提上。工具不会质疑指令，只会执行。

多Agent传染

在多Agent系统里，一个Agent的幻觉输出会成为另一个Agent的输入。错误在Agent之间流转，没有人工检查点，没有哪个Agent会质疑上一个Agent说的话是否属实。一个幻觉，可能在整个Agent网络里传播一圈，才最终以一个很难解释的错误结果浮出水面。

中科院信工所去年发布的LLM Agent幻觉综述，把这类问题归类为Agent工作流中的系统性幻觉风险——特别指出在多Agent通信拓扑中，幻觉传播的破坏面会随Agent数量和任务复杂度呈非线性增长。简单说：Agent越多、任务越复杂，幻觉一旦出现，控制难度就越高。

52.5%，这个数字该怎么理解

把这个数字放回它应有的语境里看。

这是OpenAI内部测试的结果，对比的是上一代GPT-5.3 Instant，测试场景是医疗、法律、金融等高风险聊天提示，衡量的是相对降幅，不是绝对幻觉率。不是独立第三方验证，不是跨产品横向对比，也不是Agent执行任务场景下的测试。

降幅是真实的，进步是真实的。这没有什么值得质疑的。

但用这把量尺来评估"Agent执行任务的可靠性"，量尺用错了。

聊天场景和Agent执行场景，对幻觉的容忍结构完全不同。聊天里，人是终点，人会审阅输出；Agent执行里，输出是下一步的输入，机器在审阅机器。幻觉率从10%降到5%，在聊天场景里是体验大幅提升；在一条十步的Agent执行链里，每步5%的幻觉概率叠加下来，整条链无误差完成的概率只有60%不到。

频率不是唯一的风险维度。幻觉出现在哪里，比幻觉出现多少，更重要。

那你该怎么做

这不是一个让你悲观的结论。幻觉率下降是好事，用更好的模型是对的。只是在Agent执行场景里，降低幻觉危害的关键，不只是选一个幻觉率更低的模型，而是设计一个让幻觉尽早暴露的执行结构。

三个方向，不复杂：

长任务分段验证，不要一口气跑到底。每个阶段结束让Agent输出中间结果，确认无误再继续。幻觉越早暴露，传播范围越小。

关键事实让Agent标注置信度。让它在生成关键信息时注明"这个我不确定"，不确定的部分不进入下一步执行，先走人工验证。

不可逆操作前加人工确认节点。发送邮件、写入数据、触发外部系统——这类操作一旦执行就难以撤回，是幻觉代价最高的节点，必须有人看一眼再放行。

写在最后

幻觉率降52.5%是一个真实的进步，值得肯定。但更值得理解的是：在Agent时代，幻觉的危险不在于它有多频繁，而在于它出现在哪里。

聊天里说错了，你纠正它。执行链里说错了，它去做了。

这两件事之间的距离，正是AI Agent和聊天机器人最根本的区别之一。

我是「AioGeoLab」主理人塔迪Tardi，AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室，目前有两个主要研究方向：
「塔迪GEO判断工程」是基于GEO的价值SEO化，在AI从“说”到“做”的重要跃迁阶段，试图回答，如何让AI敢于行动、不因为责任问题而畏手畏脚，而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践，深层共鸣的探索。不是用AI解读经典，也不是用经典指导AI。这是一场跨越2500年的对话，在算法与古老智慧之间，照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。

GPT5.5幻觉率降了52.5%——但有一件事，这个数字没告诉你#

幻觉是什么，为什么它消不掉#

聊天里的幻觉，和执行链里的幻觉#

执行链里，幻觉怎么传播#

52.5%，这个数字该怎么理解#

那你该怎么做#

写在最后#