模型幻觉率降了,Agent不一定更可靠丨Agent误解系列

这两年模型迭代飞快,各家厂商也在持续公布幻觉率改善数据。从机制上讲,这个进步是真实的——通过更好的训练方式、更严格的事实核查、提示词层面的干预,模型生成错误内容的概率确实在降低。有研究显示,针对性的提示词干预能把幻觉率从53%压到23%,降幅接近一半。
但这个数字,几乎都是在聊天场景里测出来的。
把它直接套到Agent执行场景上,会得出一个错误的结论。
NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。
幻觉率是怎么测出来的
测量方式决定了这个数字能说明什么。
聊天场景的幻觉率测量方式是:给模型一批问题,让它生成回答,人工或自动判断回答里有没有错误,统计错误比例。
现有的幻觉评测基准,主要是把单次模型回复分类为"事实"或"幻觉"。这个二元范式对于构建可靠Agent来说,没有触及最关键的问题:幻觉在多步骤执行流程里是从哪里来的、为什么会发生。
在聊天场景里,幻觉的位置是终点:模型生成了一段有错误的内容,人读到了,可以发现,可以纠正,代价止于此。
Agent执行场景里,幻觉的位置是起点。
同一个幻觉,放进执行链里是另一件事
Agent执行一个任务,不是生成一段内容就结束。它要规划步骤、调用工具、把上一步的输出交给下一步。每一步的输入,来自上一步的输出。
在多步骤工作流里,中间步骤的错误会沿链条传播,最终拖累整个任务的结果。比如,规划阶段的幻觉错误定义了某个关键变量,这个错误定义随后被带入工具调用的参数,导致工具在错误的基础上执行,输出错误的最终结果。
这是三种传播模式里最基础的一种——继承式传播:前一步的幻觉成为后一步的事实前提,错误被完整继承,然后在正确的逻辑框架下继续推进,越跑越远。
第二种是工具调用放大。幻觉驱动了工具调用,工具在错误指令下执行的是真实操作——发出去的邮件、修改了的文件、触发了的API请求。工具不会判断指令对不对,它只会执行。幻觉在这里从"错误信息"升级成了"错误行动"。
第三种是多Agent传染。一个Agent的幻觉输出,成为下一个Agent的输入。在多轮交互场景里,幻觉率会随对话轮次增加明显攀升。多Agent系统里,同样的机制跨Agent传播,而且每个Agent都不知道上游出了问题。
幻觉出现在哪里,比幻觉出现多少更重要
一个幻觉率只有5%的模型,如果幻觉集中发生在任务规划阶段,它在Agent执行场景里的可靠性,可能远不如一个幻觉率10%但幻觉都发生在输出阶段、容易被验收发现的模型。
数字本身没有告诉你幻觉出现在哪里,也没有告诉你它能不能被发现、被拦住。
降低Agent执行场景里的幻觉危害,真正有效的是结构设计,不是换一个幻觉率更低的模型:
分段验证节点:长任务里,每隔几步设一个检查点,验证中间结果是否符合预期。幻觉发生了,尽早暴露,代价还在可控范围里。
不可逆操作前加人工确认:发邮件、修改文件、触发支付——这类操作执行了就很难撤,在触发之前加一个人工确认节点,是在幻觉变成错误行动之前最后一道拦截。
工具调用前做参数验证:Agent生成的工具调用参数,在实际执行前做格式和逻辑检查。用确定性规则拦住概率性错误。
写在最后
选模型时,幻觉率是有参考价值的指标,但它是聊天场景的表现,不是Agent执行可靠性的保证。
幻觉出现多少是模型问题,幻觉出现了能不能早发现是结构设计问题。 后者,选哪个模型解决不了,只有执行结构的设计才能解决。
感谢你看到最后,如果你觉得有启发,随手点个赞、在看、转发吧,如果想第一时间收到推送,也可以给我加个星标⭐我们下期见。
我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
「塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。
