📌 TL;DR: 🎯 被召回不等于被引用——AI从数千候选内容中找到你只是第一步,Retrieval Scoring阶段的多维评分才决定你是否真正进入生成层被引用

📊 AI的打分不是一个数字而是多维向量,包含9个核心维度:语义相关度(入场券)、实体对齐度(最易被低估)、权威可信度(不是大V是可验证)、信息密度(讨厌废话)、结构可用性(最易干预)等

⚡ 结构可用性和实体对齐度是人为最容易干预的两个维度——用清晰的H2/H3层级、明确的定义句、可直接引用的结论句,让内容"易提取"比"打动人"更重要

⚠️ RAG系统会先检索相关文档然后重排序,最终只有排名最靠前的N个文档传递到生成阶段,你需要在多个维度上不拖后腿并在1-2个维度上建立优势

Retrieval Scoring机制:AI如何给候选内容打分

上个月有个做SaaS的朋友问我:“我的内容明明被AI召回了,为什么最后不被引用?”

我让他给我看他的内容。他打开Perplexity,搜了一个产品相关的问题,然后给我看Perplexity底部的"来源"列表——他的网站赫然在列,排第7个。

但AI的回答里,一个字都没引用他。

这就是很多人的困惑:被召回不等于被引用。AI从数千个候选内容中找到了你,但在最后一步,把你筛掉了。

这背后的机制,就是Retrieval Scoring——AI如何给候选内容打分。

这篇文章无法告诉你"具体权重是多少",因为这是AI公司的核心机密。但我会帮你建立认知:AI凭什么选你不选竞品。理解评分机制,是所有优化动作的基础。


塔迪输出的文章偏长,源于塔迪总想一次把事情都讲完整,不留尾巴。但有读者反馈,这样阅读压力很大。前一段时间使用NotebookLM的音频概览功能,发现主持人可以把我的文章转变为通俗易懂的方式讲出来,让我这个技术脑袋从不同的视角看自己的文章,大有收获,所以很想分享给大家,尤其时间比较紧张的读者朋友…当然有时间的朋友,塔迪还是建议大家完整地看文章。



Retrieval Scoring在哪个环节发生

先搞清楚一个流程问题。

很多人以为AI生成答案的过程是这样的:

用户提问 → AI搜索 → AI生成答案

错了。真实流程是这样的:

用户提问 
候选召回(Candidate Retrieval)
表示化编码(Representation Encoding)
多因子评分(Multi-factor Scoring)← 就在这
排序与截断(Ranking / Threshold Cut)
进入生成层(Generation)

Retrieval Scoring发生在"还没开始生成回答之前"

这一步决定:

  • 谁进入生成阶段
  • 谁被忽略、被弱化、被丢弃

RAG系统会先检索相关文档,然后通过重排序机制重新评估每个文档的相关性得分,最终只有排名最靠前的文档会被传递到生成阶段。

举个例子:

用户问:"什么是GEO?"

第1步:召回阶段
AI从索引中召回了1000个候选内容

第2步:评分阶段
AI给每个内容打分,从0到1

第3步:排序阶段
AI按分数排序,取Top-10

第4步:生成阶段
AI基于Top-10的内容生成回答

你的内容如果在第2步得分低,第3步就进不了Top-10,第4步自然不会被引用。


核心认知:不是一个分数,是一个评分向量

很多人以为AI打分是这样的:

内容A:85分
内容B:92分
内容C:78分

不是。AI的打分是一个多维向量

评分函数的抽象结构是这样的:

Score(Candidate | Query, Context) = 
  w1 × 语义相关度 +
  w2 × 实体对齐度 +
  w3 × 权威可信度 +
  w4 × 信息密度 +
  w5 × 结构可用性 +
  w6 × 冗余惩罚 +
  w7 × 时序场景匹配 +
  w8 × 新鲜度 +
  ...

每个维度都有自己的权重(w1, w2, w3…),不同AI、不同场景下权重不同。

关键点:这些权重你无法得知,但维度本身是可以理解和优化的

下面我逐个拆解。


核心评分维度详解

维度1:语义相关度(Semantic Relevance)

这是什么?

最基础的维度:你的内容和用户提问是否"语义相关"。

技术上,AI会把你的内容转成向量(embedding),把用户提问也转成向量,然后计算两者的相似度。常见的计算方法有三种:

方法计算方式适用场景
Cosine Similarity计算两个向量的夹角余弦值最常见,关注方向相似度
Dot Product向量点积,考虑方向+幅度适合需要考虑"置信度"的场景
Euclidean Distance计算向量间的欧氏距离适合数值型数据

语义相似度聚焦于方向,使其成为自然语言处理任务和文本分析的理想选择,而欧氏距离则测量绝对接近度,适用于数值或空间数据应用。

为什么重要?

这是入场券。如果语义相关度低,后面的维度再好也没用。

但问题是:“相关"不等于"可用”

举个例子:

用户问:什么是GEO?

内容A:
"我个人觉得GEO是未来趋势,虽然我也不太懂,
但感觉很重要..."

内容B:
"GEO(Generative Engine Optimization)是一种
针对生成式搜索的内容优化方法,核心目标是..."

两个内容在语义上都"相关",但内容B的得分会高得多。为什么?因为后面的维度。

如何优化?

  • 开篇直接回答核心问题,不要铺垫
  • 使用用户提问中的关键词(自然融入,不堆砌)
  • 避免跑题和过度延伸

维度2:实体对齐度(Entity Alignment)⭐

这是什么?

这是GEO时代最容易被低估、但权重极高的一个维度。

AI会判断你的内容是否:

  • 明确绑定到已知实体(Entity)
  • 绑定到稳定概念(Canonical Concept)
  • 能形成可提取的结构:
    • 实体 → 属性
    • 实体 → 关系
    • 实体 → 结论

简单说,AI喜欢"能被吸收为事实结构"的内容。

对比案例

低分示例

"我个人觉得GEO就是一种新趋势,
很多公司都在做,效果应该不错..."

为什么低分?

  • 没有明确实体
  • 没有可验证的事实
  • 充满主观判断和模糊表述

高分示例

"GEO(Generative Engine Optimization)是一种
针对生成式AI引擎的内容优化方法。其核心目标
是提升内容在ChatGPT、Claude、Perplexity等
AI工具中的引用率。"

为什么高分?

  • 明确定义了实体(GEO)
  • 建立了关系(GEO → AI引擎)
  • 给出了可验证的属性(核心目标)

如何优化?

优化点具体做法
明确定义开篇给出清晰的定义,不要模棱两可
实体绑定提到具体的产品、公司、技术、人物
关系表达用"X是Y"、“X包含Y”、“X导致Y"这样的结构
避免模糊少用"可能”、“大概”、“应该”、“感觉”

维度3:权威可信度(Authority / Trust Score)

这是什么?

很多人以为权威度就是"你是不是大V"、“你的域名权重高不高”。

错了。AI判断的权威度,是你的内容是否符合模型已知共识

具体来说,AI会评估:

  • 是否与高置信语料一致
  • 是否有明确断言(而非猜测)
  • 是否有稳定定义(而非创新观点)
  • 是否有低情绪噪声(而非夹带私货)

一个反常识的洞察

“原创观点” ≠ “高可信”

除非你把它包装成可验证、可归因、可对齐的判断

案例对比

低可信示例

"我有个独特的看法:GEO其实就是反向SEO,
完全不一样的逻辑,大家都理解错了..."

为什么低可信?

  • 与主流认知冲突,但没有给出证据
  • 充满主观色彩(“我有个独特的看法”)
  • 没有可验证的支撑

高可信示例

"GEO与SEO的核心区别在于优化对象:
SEO优化的是搜索引擎的排名算法,
GEO优化的是生成式AI的引用逻辑。
根据Gartner 2024年的报告..."

为什么高可信?

  • 清晰的对比结构
  • 可验证的归因(Gartner报告)
  • 客观陈述,没有情绪修饰

如何优化?

  • 引用权威来源(研究报告、学术论文、官方文档)
  • 用数据支撑观点,而非只有观点
  • 避免过度情绪化的表达
  • 承认不确定性(“可能”、“通常”),而非绝对化

维度4:信息密度(Information Density)

这是什么?

AI非常讨厌"废话"。

它更偏好:单位token内的信息量高

换句话说,AI希望:

  • 一句话 = 一个判断
  • 少铺垫,多结构
  • 少故事,多结论

AI讨厌的内容模式

❌ 情绪铺垫过长:

"作为一个在互联网行业摸爬滚打十年的老兵,
我深刻体会到优化的重要性。记得2015年那个
秋天,我第一次接触SEO..."

❌ 比喻过多:

"GEO就像种树,你要先选好土壤(内容质量),
再浇水(持续更新),还要施肥(外部链接),
最后才能开花结果..."

❌ 个人经历占比过高:

"我的第一个客户是个教育公司,当时他们很焦虑,
我花了三个月时间研究,最后发现..."

AI喜欢的内容模式

✅ 定义体:

"GEO(Generative Engine Optimization)是指..."

✅ 结论体:

"影响AI引用的三个核心因素:
1. 语义相关度
2. 内容结构化程度
3. 信息新鲜度"

✅ 框架体:

"GEO优化分为三个层次:
- 内容层:优化可提取性
- 结构层:优化可理解性
- 策略层:优化可发现性"

数据对比

内容类型信息密度AI偏好度
小红书体📉
故事体📉
心路历程📉
定义体📈
结论体📈
框架体📈

如何优化?

  • 开篇不铺垫,直接给答案
  • 用列表和表格代替长段落
  • 每句话都有明确信息增量
  • 删除所有可有可无的形容词

维度5:结构可用性(Structural Usability)⭐

这是什么?

这是人为最容易干预的一项

AI会隐性评估你的内容是否容易被:

  • 摘要
  • 列表化
  • 引用
  • 重组

具体来说,AI偏好:

  • 清晰的段落边界
  • 标题 = 语义标签
  • 明确的"可抽取句"

一个关键洞察

“写给AI用的内容,看起来会更’冷’”

因为它优先的不是"打动人",而是"易提取"。

案例对比

低结构化示例

GEO是个很有意思的话题,说起来话长。
首先你要知道,它和SEO不太一样,虽然
名字看起来很像,但底层逻辑完全不同,
这个不同体现在很多方面,比如优化目标、
内容组织方式、效果评估方法等等,每一个
都值得深入探讨...

为什么低分?

  • 没有明确段落边界
  • 信息混在一起
  • AI不知道从哪里提取

高结构化示例

## GEO与SEO的三个核心区别

### 1. 优化目标不同
SEO优化搜索引擎排名,GEO优化AI引用率。

### 2. 内容组织方式不同
SEO强调关键词密度,GEO强调结构化程度。

### 3. 效果评估方法不同
SEO看排名和流量,GEO看引用次数和归因准确性。

为什么高分?

  • 清晰的层级结构
  • 每个小节独立完整
  • AI可以精准提取任何一个点

结构化清单

□ 是否有清晰的标题层级(H2, H3)?
□ 每个段落是否只讲一个点?
□ 是否使用了列表和表格?
□ 是否有明确的定义句?
□ 是否有可直接引用的结论句?

如何优化?

优化点具体做法
标题层级用H2/H3明确区分主题和子主题
段落独立性每个段落能独立回答一个问题
列表化把并列信息用列表呈现
表格化把对比信息用表格呈现
可抽取句每个小节有一句"总结句"

维度6:冗余惩罚(Redundancy Penalty)

这是什么?

即使你的内容很好,但如果:

  • 与已有高分内容重复度高
  • 没有新增信息增量

AI会给你负权重

这解释了一个常见现象:

你写得"很对",但AI已经"见过更好版本"

案例

场景:用户问"什么是GEO?"

候选内容池:
- 内容A:Wikipedia上的GEO词条(得分:0.92)
- 内容B:你的GEO介绍文章(得分:0.88)

如果内容B与内容A高度重复,AI会给内容B降权。
最终排序:内容A排第1,内容B排第8。

如何判断是否冗余?

AI会计算:

  • 与Top候选内容的相似度
  • 信息增量比例
  • 独特观点占比

评估研究发现,多样性评估通过计算检索文档或生成响应嵌入之间的余弦相似度/距离来衡量信息的广度和多样性,较低的余弦相似度分数表示更高的多样性。

如何优化?

  • 找到差异化角度(不要重复主流内容)
  • 提供新的案例、数据、视角
  • 如果确实是基础概念,给出更深的拆解
  • 增加独特的实践经验或方法论

维度7:时序场景匹配(Temporal / Context Fit)

这是什么?

AI会评估你的内容是否:

  • 过时
  • 适合当前任务类型
  • 适合当前回答粒度(概览 / 深入 / 操作)

时序维度

搜索引擎经常会根据用户查询判断新鲜度需求,采用Query Deserves Freshness机制,对于被视为具有QDF参数的搜索,搜索引擎会倾向于最近发布或更新的内容。

QDF机制识别三类需要新鲜内容的查询:

  1. 近期事件和热点话题
  2. 定期重复发生的事件
  3. 经常变化的信息

举个例子:

查询:"2024年最佳GEO工具"

内容A:2023年发布,没更新
内容B:2024年11月发布

即使内容A质量更高,内容B也会因为时效性得分更高。

场景维度

场景类型AI偏好的内容类型
概览场景定义、框架、分类
深入场景原理、机制、案例
操作场景步骤、清单、模板

为什么"教程类 > 观点类"?

因为教程类内容:

  • 结构化程度高
  • 可操作性强
  • 适合更多场景

如何优化?

  • 定期更新时效性强的内容
  • 标注发布日期和更新日期
  • 根据目标场景调整内容粒度
  • 对于时效性强的话题,及时更新数据

维度8:内容新鲜度(Content Freshness)

这是什么?

这是时序维度的一个子维度,但足够重要,单独拿出来讲。

Google的Query Deserves Freshness(QDF)模型被应用到AI检索中。AI会判断:用户的查询是否需要最新信息?

QDF的四类查询

查询类型示例新鲜度权重
突发查询“今天股市”极高
近期查询“2024年AI趋势”
持续更新查询“iPhone最新型号”
常青查询“如何学编程”

内容新鲜度可以使突发和近期查询的排名潜力提高3-4倍。

判断方法

AI评估新鲜度的信号:

  • 发布日期
  • 最后更新日期
  • 内容提到的时间信息(“2024年”、“最近”)
  • 引用的数据和案例的时效性

如何优化?

  • 在标题和开篇标注时间(“2024年最新”)
  • 定期更新常青内容
  • 引用最新的数据和案例
  • 对于时效性强的内容,至少每季度更新一次

维度9:噪声鲁棒性(Noise Robustness)

这是什么?

AI会评估你的内容是否"干净"——是否包含无关信息、误导信息。

噪声鲁棒性衡量RAG系统处理无关或误导性信息而不影响响应质量的能力。

常见的"噪声"

广告和营销信息

"GEO是...(在这里插入我们的产品广告)"

无关的个人经历

"说到GEO,我想起上周和朋友聊天..."

过度的免责声明

"以下内容仅供参考,不构成任何建议,
具体情况请咨询专业人士..."

如何优化?

  • 删除所有与核心问题无关的信息
  • 广告和CTA放在文章末尾,不要穿插
  • 个人经历只在必要时简短提及
  • 免责声明简化为一句话

评分之后:不是"选一个",而是"选一组"

很多人以为AI的最终选择是这样的:

排序:内容A > 内容B > 内容C
选择:内容A

不是。AI会选一组内容

完整流程是这样的:

1. Top-K排序

AI不只看第1名,而是取Top-K(通常K=5到20)。

2. Threshold截断

AI会设一个阈值(比如0.7),低于这个分数的直接丢弃。

3. 去重与合并

AI会对Top-K的内容去重:

  • 如果两个内容高度重复,只保留分数更高的
  • 如果两个内容互补,都保留

4. 压缩与重组

AI会把选中的内容"压缩"成更紧凑的形式,然后拼接。

最终进入生成层的,通常是

“一小组彼此不冲突、结构互补的内容块”

重排序使用相似度搜索找到合适的文档,然后根据相关性分数对它们进行排名,通常只有排名最靠前的N个重新排序的文档会传递到RAG流程的下一阶段。

这意味着什么?

洞察行动建议
单篇内容很难"通吃"用主题集群覆盖一个话题的多个方面
互补性很重要不同内容强调不同维度
去重机制很严格避免内容间高度重复

如何验证你的内容得分

理论讲完了,怎么知道你的内容在这些维度上表现如何?

我给你两个方法。

方法1:AI对比测试

步骤

  1. 选一个目标查询

  2. 用ChatGPT/Claude/Perplexity搜索

  3. 观察:

    • 你的内容是否被召回?
    • 如果被召回,排第几?
    • 最终是否被引用?
  4. 对比引用的内容:

    • 它们在哪些维度上比你强?
    • 你在哪些维度上有优势?

评估表

维度你的内容被引用的内容差距
语义相关度高/中/低高/中/低+/-
实体对齐度高/中/低高/中/低+/-
权威可信度高/中/低高/中/低+/-
信息密度高/中/低高/中/低+/-
结构可用性高/中/低高/中/低+/-
内容新鲜度高/中/低高/中/低+/-

方法2:维度自查清单

如果你不想每次都跑AI测试,用这个清单做自查:

语义相关度清单

□ 开篇直接回答核心问题
□ 使用查询中的关键词
□ 没有跑题和过度延伸

实体对齐度清单

□ 有明确的定义句
□ 绑定到具体实体(产品/公司/技术)
□ 用"X是Y"、"X包含Y"的结构
□ 避免模糊表述("可能"、"大概")

权威可信度清单

□ 引用了权威来源
□ 用数据支撑观点
□ 客观陈述,无情绪化表达
□ 承认不确定性

信息密度清单

□ 开篇无铺垫
□ 用列表和表格代替长段落
□ 每句话有信息增量
□ 删除了可有可无的形容词

结构可用性清单

□ 有清晰的H2/H3层级
□ 每个段落只讲一个点
□ 使用了列表和表格
□ 有明确的定义句和结论句

内容新鲜度清单

□ 标注了发布/更新日期
□ 引用了最新数据和案例
□ 没有过时的信息

冗余检查清单

□ 找到了差异化角度
□ 提供了新的案例或数据
□ 有独特的实践经验

常见误区

误区1:追求所有维度都高分

不现实。

更实际的策略

  • 确保基础维度(语义相关度、结构可用性)及格
  • 在1-2个维度上做到优秀(比如实体对齐度+信息密度)
  • 其他维度不拖后腿

误区2:以为新鲜度对所有内容都重要

不是。

QDF机制很明确:

  • 突发话题:新鲜度极重要
  • 常青话题:新鲜度不重要

示例:

查询:"今天股市行情"
→ 新鲜度权重:极高

查询:"如何学Python"
→ 新鲜度权重:低

误区3:以为高分=一定被引用

不一定。

因为还有两个机制:

  1. 去重机制:如果有更高分的类似内容,你会被过滤
  2. 多样性要求:AI会选一组互补的内容,不会都选同类型

解决方案

  • 找到你的差异化角度
  • 在主题集群中,让每篇内容强调不同方面

写在最后

Retrieval Scoring不是一个神秘的黑箱,而是一个可以理解的多维评估体系

你不需要知道每个维度的具体权重,但你需要理解:

  • AI在评估什么
  • 你的内容在哪些维度上有优势
  • 你的内容在哪些维度上有短板

这篇文章给你拆解了9个核心维度:

维度重要度可干预度
语义相关度★★★★★
实体对齐度★★★★★
权威可信度★★★★☆
信息密度★★★★☆
结构可用性★★★★★极高
冗余惩罚★★★☆☆
时序场景匹配★★★☆☆
内容新鲜度★★★★☆
噪声鲁棒性★★★☆☆

关键洞察

不是每个维度都要做到完美。更实际的策略是:

  • 确保基础维度(语义相关度、结构可用性)不拖后腿
  • 在1-2个维度上建立优势
  • 找到你的差异化角度

最后,记住一点:理解评分机制不是为了"破解算法",而是为了"创作更好的内容"

AI的评分逻辑,本质上反映的是"什么样的内容更有价值、更易使用、更值得信任"。当你在优化这些维度时,你不只是在迎合AI,你在让内容变得更好


一句话总结

Retrieval Scoring是AI在召回候选内容后、生成回答前,对每个内容进行的多维评估,包含语义相关度、实体对齐度、权威可信度、信息密度、结构可用性、冗余惩罚、时序场景匹配、内容新鲜度、噪声鲁棒性等九个核心维度,理解这些维度不是为了破解算法,而是为了创作更有价值,更易提取更值得信任的内容,因为AI的评分逻辑,本质上反映的就是内容质量的客观标准。


我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是追踪、研究、实验、创作并分享海外顶级GEO实践者第一手最佳实践的技术类社区,为广大GEO、SEO从业者提供深度的内容、社群、推广、培训、平台相关的服务。
我们认为:知识的应用和经验的碰撞才能够赋予知识生命力,对于一个新兴的领域 - GEO,尤其如此。我们会逐步开放我们的社区以及知识库,感兴趣的朋友可以先加小编的微信 - tardyai2025