Agent没有情绪,但它有偏见——只是很难看见丨Agent误解系列

因为Agent没有情绪,所以输出更客观,这个直觉有它合理的地方。
Agent确实没有情绪。它不会因为今天睡眠不足而判断失准,不会因为某个候选人和自己的老朋友长得像而打高分,不会因为下午三点精力下滑而在审阅第二十份简历时开始敷衍。
但"没有情绪偏见"和"没有偏见",是两件完全不同的事。
偏见有两个来源。Agent只消除了其中一个,完整继承了另一个。
NotebookLM的音视频概览,解读的比较通俗易懂,对于时间比较紧张的读者朋友,可以听听,会有启发。
偏见藏在哪里
人的偏见来自执行者本身:情绪、疲劳、个人喜好、无意识的刻板印象。这一层,Agent确实没有。
但还有另一层:数据层面的结构性偏见。训练数据是人类历史输出的总和——包括历史上人类决策里所有的不平等、所有的采样偏差、所有标注者的集体偏好。这些东西被完整编码进了模型。
Agent不是在独立思考,它是在用概率复现训练数据里的模式。如果训练数据里某类人被系统性地低估,模型就会学会低估他们——不带任何情绪,不带任何恶意,只是忠实地复现了数据里的规律。
案例一:招聘系统,学会了歧视
亚马逊早在2014年开始构建一套AI招聘工具,目标是让模型自动筛选简历、给候选人打分,把最优秀的人推到招聘官面前。
到2015年,亚马逊发现这套系统在对软件工程师等技术岗位进行评分时,并没有做到性别中立。具体表现是:包含"女性"字样的简历会被降权,两所女子学院的毕业生也遭到了降分处理。
原因是什么?模型的训练数据来自亚马逊过去十年的员工简历,而这批员工以男性为主。模型学会的,是"和现有员工相似的简历"——于是复现了现有员工群体的性别结构。
这个案例有一个细节值得注意:亚马逊的工程师发现问题后,修改了模型,让它不再对"女性"这个词本身降权。但正如ACLU事后分析指出的:没有人知道模型是否还会通过其他方式延续歧视——邮政编码、学生组织名称、任何与性别相关的间接特征,都可能成为替代路径。亚马逊最终放弃了这个工具。
案例二:内容生成,复现了默认画像
让Agent描述"一个成功的科技公司CEO",它会输出什么?
不需要实验,机制就能告诉你答案:模型的输出是训练数据里这个描述出现频率最高的那个版本。过去几十年科技行业报道里,CEO形象的主流呈现方式,会直接影响模型的默认输出——包括性别、年龄、外貌描述的倾向。
这不是模型在做价值判断,它只是在还原它见过最多次的那个版本。但对读到这个输出的人来说,它以"AI生成"的面目出现,带着一种隐性的权威感——像是统计得出的事实,而不是偏见的复现。
为什么数据偏见比人的偏见更难被发现
人的偏见是可以被追问的。你可以问一个面试官:你为什么给这个候选人打低分?他需要给出理由,理由可以被质疑,质疑可以推动改变。
Agent的输出不一样。它穿着"数据驱动"的外衣,带着隐性的客观性光环。质疑它的输出,需要先质疑它的训练数据,再追溯数据采样的方式,再分析标注过程里的集体偏好——这条链条很长,举证成本很高。
正如ACLU在分析亚马逊案例时描述的:这类工具的问题不是在消除人的偏见,而是在用软件把偏见洗白。
“模型说的"比"他说的"更难被推翻。这才是真正需要警惕的地方。
用对Agent的位置
不是说Agent不能用于这类任务。是说它不能充当客观性的背书。
用Agent做初稿、做效率工具、处理信息量大的初步筛选——这些是合理的位置。但涉及对人的评估、对群体的定性、对有历史性不平等的领域做判断,人的复核不能省,而且复核的出发点不只是"结果对不对”,还要包括"这个结果的倾向性在哪里"。
判断偏见是否存在,本身就需要人来做。这件事,不能交给Agent自己判断。
写在最后
Agent消除的是执行者的情绪偏见,继承的是训练数据的结构性偏见。前者是显性的、容易被意识到的;后者是隐性的、穿着客观性外衣的。
偏见没有消失,只是换了一个更难被看见的藏身之处。
感谢你看到最后,如果你觉得有启发,随手点个赞、在看、转发吧,如果想第一时间收到推送,也可以给我加个星标⭐我们下期见。
我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是深度洞察AI第一性原理和应用实践的前瞻性研究实验室,目前有两个主要研究方向:
「塔迪GEO判断工程」是基于GEO的价值SEO化,在AI从“说”到“做”的重要跃迁阶段,试图回答,如何让AI敢于行动、不因为责任问题而畏手畏脚,而做的一个前沿研究项目。
「塔迪硅基禅心」是传统东方智慧、未来AI前沿、当下应用实践,深层共鸣的探索。不是用AI解读经典,也不是用经典指导AI。 这是一场跨越2500年的对话,在算法与古老智慧之间,照见意识、智能与存在的本质。
塔迪的微信 - tardyai2025。
