GPT5.5幻觉率降了52.5%——但有一件事,这个数字没告诉你

这周OpenAI把ChatGPT的默认模型升级到了GPT-5.5 Instant。这是他们面向所有用户——包括免费用户——推送的新版本,升级公告的第一条就是:在医疗、法律、金融等高风险场景中,幻觉率较上一代降低了52.5%。
数字很好看,方向也是对的。
但如果你正在用AI Agent处理真实任务,有一件比这个数字更重要的事需要知道:幻觉在聊天里出错,和幻觉在Agent执行链里出错,是两种完全不同的事。
* * *NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。
幻觉是什么,为什么它消不掉
先把基础讲清楚,不绕弯子。
幻觉,就是模型用自信的语气说了错的事。不是偶尔搞错,而是结构性地、系统性地会出现这种情况。
为什么?因为语言模型生成内容的方式,不是"查找事实",而是"预测下一个最合理的词"。每生成一个字,模型都在问:接下来什么词出现的概率最高?这套机制让它能写出流畅的文字、合理的逻辑——但同时也意味着,它没有一个内部的事实核查层。当它缺少某个知识时,它不会停下来说"我不确定",而是会生成一个听起来合理的答案。
模型不知道自己不知道。这是概率预测的天然副产品,不是某个产品的特定bug。
所以幻觉率能降低,但不能归零。52.5%的降幅是真实的进步——但它降的是频率,不是这个结构性特征本身。幻觉还在,只是少了一些。
聊天里的幻觉,和执行链里的幻觉
这是这篇文章最核心的一个区分。
在聊天场景里,幻觉是终点。
它说错了,你看到了,代价止于这里。你可以选择相信,或者去查一下。就算信了错误的,损失也局限在你这里,链条到此结束。这是一个"输出即终点"的结构。
在Agent执行场景里,幻觉是起点。
它带着这个错误的信念,继续往下走——调用工具、写入数据、发送请求、触发下一步操作。幻觉不只是一个错误的输出,而是一个错误的输入,会被后续所有步骤继承,层层放大。
举一个具体的场景:
你让Agent做竞品分析。它在信息收集阶段,幻觉了一个竞品"已上线某功能"——这个功能其实并不存在。它把这条信息写进了分析报告,报告被决策层参考,团队基于这个错误前提调整了产品路线图。
幻觉发生在第一步。代价结算在最后一步。中间隔着整条执行链,没有人看到中间发生了什么。
这个结构,和聊天里说错一句话,是完全不同量级的事。
执行链里,幻觉怎么传播
把危险讲得更具体一点。执行链里的幻觉,大致有三种传播模式:
继承式传播
幻觉的输出被当成正确的输入,直接进入下一步。链条越长,错误传递越深,到最后一步时,初始的那个幻觉已经被"合理化"了好几层,很难再往回追溯。
工具调用放大
幻觉触发了一个真实的工具调用。它用错误的关键词发起了搜索,用错误的参数写入了数据库,用错误的前提发送了一封邮件。工具执行的结果是真实发生的——但整个操作建立在一个幻觉的前提上。工具不会质疑指令,只会执行。
多Agent传染
在多Agent系统里,一个Agent的幻觉输出会成为另一个Agent的输入。错误在Agent之间流转,没有人工检查点,没有哪个Agent会质疑上一个Agent说的话是否属实。一个幻觉,可能在整个Agent网络里传播一圈,才最终以一个很难解释的错误结果浮出水面。
中科院信工所去年发布的LLM Agent幻觉综述,把这类问题归类为Agent工作流中的系统性幻觉风险——特别指出在多Agent通信拓扑中,幻觉传播的破坏面会随Agent数量和任务复杂度呈非线性增长。简单说:Agent越多、任务越复杂,幻觉一旦出现,控制难度就越高。
52.5%,这个数字该怎么理解
把这个数字放回它应有的语境里看。
这是OpenAI内部测试的结果,对比的是上一代GPT-5.3 Instant,测试场景是医疗、法律、金融等高风险聊天提示,衡量的是相对降幅,不是绝对幻觉率。不是独立第三方验证,不是跨产品横向对比,也不是Agent执行任务场景下的测试。
降幅是真实的,进步是真实的。这没有什么值得质疑的。
但用这把量尺来评估"Agent执行任务的可靠性",量尺用错了。
聊天场景和Agent执行场景,对幻觉的容忍结构完全不同。聊天里,人是终点,人会审阅输出;Agent执行里,输出是下一步的输入,机器在审阅机器。幻觉率从10%降到5%,在聊天场景里是体验大幅提升;在一条十步的Agent执行链里,每步5%的幻觉概率叠加下来,整条链无误差完成的概率只有60%不到。
频率不是唯一的风险维度。幻觉出现在哪里,比幻觉出现多少,更重要。
那你该怎么做
这不是一个让你悲观的结论。幻觉率下降是好事,用更好的模型是对的。只是在Agent执行场景里,降低幻觉危害的关键,不只是选一个幻觉率更低的模型,而是设计一个让幻觉尽早暴露的执行结构。
三个方向,不复杂:
长任务分段验证,不要一口气跑到底。每个阶段结束让Agent输出中间结果,确认无误再继续。幻觉越早暴露,传播范围越小。
关键事实让Agent标注置信度。让它在生成关键信息时注明"这个我不确定",不确定的部分不进入下一步执行,先走人工验证。
不可逆操作前加人工确认节点。发送邮件、写入数据、触发外部系统——这类操作一旦执行就难以撤回,是幻觉代价最高的节点,必须有人看一眼再放行。
写在最后
幻觉率降52.5%是一个真实的进步,值得肯定。但更值得理解的是:在Agent时代,幻觉的危险不在于它有多频繁,而在于它出现在哪里。
聊天里说错了,你纠正它。执行链里说错了,它去做了。
这两件事之间的距离,正是AI Agent和聊天机器人最根本的区别之一。
我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
「塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。
