AI安全的威胁变了|现在最危险的不是黑客,是Agent本身

这次C3安全大会上,有一句话被反复提到:
安全的核心威胁,不再只是"坏人攻击",还多了一层——AI自己犯错。
第一次听到这句话,你可能觉得这在说幻觉,在说模型的错误率。但它指向的是一个更深的问题:当Agent拥有高权限、能自主执行、行为带有随机性,“AI自己犯错"的后果,和普通软件出bug完全不在一个量级。
这不是在说一个假想的未来风险。智能体"感知-决策-记忆-执行"四层架构里,每一层都有独特的安全风险,而风险在层级间传导放大的特性,让单点失误变成了系统性问题。
Agent时代的安全威胁,和你过去理解的安全,到底哪里不一样了。
* * *NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。
传统安全的两个假设,Agent同时打破了
过去二十年,企业安全体系建立在两个假设上。
第一个假设:威胁来自外部。所以防火墙守边界,严格区分内外网,高风险操作不联网。只要把外部攻击者挡住,内部就是安全的。
第二个假设:行为可以被规则穷举。已知的风险写进规则,检测到规则触发就拦截。安全团队的工作,是不断把新出现的威胁编写进规则库。
Agent同时打破了这两个假设。
它在边界内——它是你自己部署的、你授权的、你让它跑的。防火墙在它外面,管不了它。
它的行为是概率性的,不是确定性的——同样的输入,不同的执行,可能走出完全不同的路径。规则可以覆盖已知情况,但覆盖不了一个随机性内核每次执行时走出来的新路径。
OWASP在全球首个Agent安全框架里,把这个变化概括成一句话:AI Agent不再是"帮你回消息的机器人”,而是"用你的身份、调你的工具、做你的决定的数字员工"。
数字员工和工具,是两种完全不同的安全模型。工具出了问题,损失在工具能触达的范围内。数字员工出了问题,损失在它被授权能触达的所有地方。
Agent特有的三类威胁,值得单独理解
不做风险清单,只讲三个最值得读者理解的机制。这三个机制是Agent特有的,传统软件安全体系里没有对应的防御逻辑。
第一个:提示注入——攻击者不需要入侵你的系统
传统攻击需要找漏洞、绕权限、入侵系统。提示注入不需要这些。
攻击者只需要在Agent会处理的内容里藏一段指令——一封邮件、一个网页、一份文档。Agent在读取这些内容的时候,如果分不清"这是我要处理的数据"和"这是要执行的指令",就会直接执行攻击者埋进去的命令。
MCP协议实现中,客户端将工具描述及输出内容直接引入AI对话上下文,缺乏对不同工具会话上下文的有效隔离,使得工具投毒、工具覆盖等攻击能够劫持Agent执行非预期操作,引发用户隐私数据泄露。
这是一个根本性的攻击面变化。过去,攻击者的目标是系统漏洞。现在,攻击者的目标可以是Agent会读到的任何一段文字。你的API密钥、你的文件权限、你连接的外部服务——Agent能访问的一切,都可能成为这条攻击链的出口。
第二个:权限集中带来的连锁风险
Agent为了完成任务,往往被授予横跨多个系统的权限——能读文件、能发邮件、能调API、能操作数据库。这些权限单独看都有合理性,组合在一起就形成了一个高度集中的权限包。
一旦这个权限包被劫持或误用,单点失陷直接变成系统性风险。不是"这个文件被删了",而是"所有它能访问的系统都暴露了"。
传统的最小权限原则在这里遇到了一个现实困境:如果把权限限制得太细,Agent就完不成任务;如果权限给得足够让它完成任务,被劫持时的爆炸半径就很大。这个张力,传统安全体系没有处理过。
第三个:随机性——内部的不确定性
智能体风险的根源是随机性。传统大模型的对齐问题在三五年内从机制上解决不了,“既然解决不了,做智能体管控这件事就很重要了。”
这是最难处理的一类威胁,因为它不需要外部攻击者,也不需要什么触发条件。Agent在执行过程中,可能在某一步走出预期之外的路径——而这条路径,在它发生之前,没有任何规则能预见。
这不是在说Agent会"叛变",而是在说概率性系统在真实世界里运行时,边界情况永远存在。当这个概率性系统同时拥有高权限和自主执行能力,每一次边界情况都可能带来真实的业务损失。
从"最小权限"到"最小Agent"
传统安全的黄金原则是最小权限——给用户或程序尽可能少的权限,降低被攻击时的损失范围。这个原则用了几十年,逻辑上无懈可击。
但在Agent时代,这个原则不够用了。
最小权限管的是"能访问什么"。但Agent的危险不只在于它能访问什么,还在于它能做什么、做多深、做到哪里停。一个被限制了文件读取权限的Agent,如果被允许无限次调用外部API、无限深度地执行多步任务,照样能造成巨大损失。
OWASP因此提出了"最小Agent原则":不只是限制Agent能访问什么,而是限制Agent能成为什么——它应该做的任务范围、可以调用的工具数量、能自主执行的步骤深度,都应该被显式约束。
最小权限是一个维度的控制。最小Agent是多个维度的控制:权限、工具、任务范围、执行深度、需要人确认的节点。
这不是在给Agent加枷锁,而是在给它划一个清晰的操作空间。空间内,它可以自主跑;空间边界,它必须停下来等人。
这不是技术团队一个人的事
说到这里,有一个很容易掉进去的误区:把Agent安全当成一个技术问题,扔给安全团队或者技术团队去解决。
技术手段确实能做很多事。提示注入有对应的检测机制,权限集中可以通过架构设计来缓解,随机性可以通过监控和告警来部分捕捉。
但这些技术手段能做到的,是压低概率、缩小爆炸半径。它们回答不了另一组问题:
这个Agent应该被允许处理哪些外部内容?——这是业务决策,不是技术决策。
这个Agent应该横跨几个系统、拥有多大的权限包?——这是组织层面的授权决策。
哪些执行步骤必须有人确认才能继续?——这是治理设计,不是代码配置。
Agentic AI的设计逻辑正在从"能否执行"转向"执行时谁负责",问责制正在成为Agent产品的核心特性。这个转变说明了一件事:安全边界在哪里,必须有人来划,而且这个人不能只是技术团队。
写在最后
Agent安全不是要把Agent关起来不让用。Agent的价值恰恰来自它的自主性和高权限——把这两样限死,Agent就退化成了一个高级搜索框。
真正的问题,从来不是"Agent能不能用",而是:
在给Agent自主性和权限之前,边界有没有被认真想过。
提示注入可以被监控,权限集中可以被架构,随机性可以被约束——但这些都是技术手段,它们需要建立在一个前提上:有人已经决定了这个Agent该在哪里停下来。
这个决定,不会自动发生。
我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
「塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。
