📊 AI的打分不是一个数字而是多维向量,包含9个核心维度:语义相关度(入场券)、实体对齐度(最易被低估)、权威可信度(不是大V是可验证)、信息密度(讨厌废话)、结构可用性(最易干预)等
⚡ 结构可用性和实体对齐度是人为最容易干预的两个维度——用清晰的H2/H3层级、明确的定义句、可直接引用的结论句,让内容"易提取"比"打动人"更重要
⚠️ RAG系统会先检索相关文档然后重排序,最终只有排名最靠前的N个文档传递到生成阶段,你需要在多个维度上不拖后腿并在1-2个维度上建立优势
Retrieval Scoring机制:AI如何给候选内容打分
上个月有个做SaaS的朋友问我:“我的内容明明被AI召回了,为什么最后不被引用?”
我让他给我看他的内容。他打开Perplexity,搜了一个产品相关的问题,然后给我看Perplexity底部的"来源"列表——他的网站赫然在列,排第7个。
但AI的回答里,一个字都没引用他。
这就是很多人的困惑:被召回不等于被引用。AI从数千个候选内容中找到了你,但在最后一步,把你筛掉了。
这背后的机制,就是Retrieval Scoring——AI如何给候选内容打分。
这篇文章无法告诉你"具体权重是多少",因为这是AI公司的核心机密。但我会帮你建立认知:AI凭什么选你不选竞品。理解评分机制,是所有优化动作的基础。
塔迪输出的文章偏长,源于塔迪总想一次把事情都讲完整,不留尾巴。但有读者反馈,这样阅读压力很大。前一段时间使用NotebookLM的音频概览功能,发现主持人可以把我的文章转变为通俗易懂的方式讲出来,让我这个技术脑袋从不同的视角看自己的文章,大有收获,所以很想分享给大家,尤其时间比较紧张的读者朋友…当然有时间的朋友,塔迪还是建议大家完整地看文章。
Retrieval Scoring在哪个环节发生
先搞清楚一个流程问题。
很多人以为AI生成答案的过程是这样的:
用户提问 → AI搜索 → AI生成答案
错了。真实流程是这样的:
用户提问
↓
候选召回(Candidate Retrieval)
↓
表示化编码(Representation Encoding)
↓
多因子评分(Multi-factor Scoring)← 就在这
↓
排序与截断(Ranking / Threshold Cut)
↓
进入生成层(Generation)
Retrieval Scoring发生在"还没开始生成回答之前"。
这一步决定:
- 谁进入生成阶段
- 谁被忽略、被弱化、被丢弃
RAG系统会先检索相关文档,然后通过重排序机制重新评估每个文档的相关性得分,最终只有排名最靠前的文档会被传递到生成阶段。
举个例子:
用户问:"什么是GEO?"
第1步:召回阶段
AI从索引中召回了1000个候选内容
第2步:评分阶段
AI给每个内容打分,从0到1
第3步:排序阶段
AI按分数排序,取Top-10
第4步:生成阶段
AI基于Top-10的内容生成回答
你的内容如果在第2步得分低,第3步就进不了Top-10,第4步自然不会被引用。
核心认知:不是一个分数,是一个评分向量
很多人以为AI打分是这样的:
内容A:85分
内容B:92分
内容C:78分
不是。AI的打分是一个多维向量。
评分函数的抽象结构是这样的:
Score(Candidate | Query, Context) =
w1 × 语义相关度 +
w2 × 实体对齐度 +
w3 × 权威可信度 +
w4 × 信息密度 +
w5 × 结构可用性 +
w6 × 冗余惩罚 +
w7 × 时序场景匹配 +
w8 × 新鲜度 +
...
每个维度都有自己的权重(w1, w2, w3…),不同AI、不同场景下权重不同。
关键点:这些权重你无法得知,但维度本身是可以理解和优化的。
下面我逐个拆解。
核心评分维度详解
维度1:语义相关度(Semantic Relevance)
这是什么?
最基础的维度:你的内容和用户提问是否"语义相关"。
技术上,AI会把你的内容转成向量(embedding),把用户提问也转成向量,然后计算两者的相似度。常见的计算方法有三种:
| 方法 | 计算方式 | 适用场景 |
|---|---|---|
| Cosine Similarity | 计算两个向量的夹角余弦值 | 最常见,关注方向相似度 |
| Dot Product | 向量点积,考虑方向+幅度 | 适合需要考虑"置信度"的场景 |
| Euclidean Distance | 计算向量间的欧氏距离 | 适合数值型数据 |
语义相似度聚焦于方向,使其成为自然语言处理任务和文本分析的理想选择,而欧氏距离则测量绝对接近度,适用于数值或空间数据应用。
为什么重要?
这是入场券。如果语义相关度低,后面的维度再好也没用。
但问题是:“相关"不等于"可用”。
举个例子:
用户问:什么是GEO?
内容A:
"我个人觉得GEO是未来趋势,虽然我也不太懂,
但感觉很重要..."
内容B:
"GEO(Generative Engine Optimization)是一种
针对生成式搜索的内容优化方法,核心目标是..."
两个内容在语义上都"相关",但内容B的得分会高得多。为什么?因为后面的维度。
如何优化?
- 开篇直接回答核心问题,不要铺垫
- 使用用户提问中的关键词(自然融入,不堆砌)
- 避免跑题和过度延伸
维度2:实体对齐度(Entity Alignment)⭐
这是什么?
这是GEO时代最容易被低估、但权重极高的一个维度。
AI会判断你的内容是否:
- 明确绑定到已知实体(Entity)
- 绑定到稳定概念(Canonical Concept)
- 能形成可提取的结构:
- 实体 → 属性
- 实体 → 关系
- 实体 → 结论
简单说,AI喜欢"能被吸收为事实结构"的内容。
对比案例:
❌ 低分示例:
"我个人觉得GEO就是一种新趋势,
很多公司都在做,效果应该不错..."
为什么低分?
- 没有明确实体
- 没有可验证的事实
- 充满主观判断和模糊表述
✅ 高分示例:
"GEO(Generative Engine Optimization)是一种
针对生成式AI引擎的内容优化方法。其核心目标
是提升内容在ChatGPT、Claude、Perplexity等
AI工具中的引用率。"
为什么高分?
- 明确定义了实体(GEO)
- 建立了关系(GEO → AI引擎)
- 给出了可验证的属性(核心目标)
如何优化?
| 优化点 | 具体做法 |
|---|---|
| 明确定义 | 开篇给出清晰的定义,不要模棱两可 |
| 实体绑定 | 提到具体的产品、公司、技术、人物 |
| 关系表达 | 用"X是Y"、“X包含Y”、“X导致Y"这样的结构 |
| 避免模糊 | 少用"可能”、“大概”、“应该”、“感觉” |
维度3:权威可信度(Authority / Trust Score)
这是什么?
很多人以为权威度就是"你是不是大V"、“你的域名权重高不高”。
错了。AI判断的权威度,是你的内容是否符合模型已知共识。
具体来说,AI会评估:
- 是否与高置信语料一致
- 是否有明确断言(而非猜测)
- 是否有稳定定义(而非创新观点)
- 是否有低情绪噪声(而非夹带私货)
一个反常识的洞察:
“原创观点” ≠ “高可信”
除非你把它包装成可验证、可归因、可对齐的判断。
案例对比:
❌ 低可信示例:
"我有个独特的看法:GEO其实就是反向SEO,
完全不一样的逻辑,大家都理解错了..."
为什么低可信?
- 与主流认知冲突,但没有给出证据
- 充满主观色彩(“我有个独特的看法”)
- 没有可验证的支撑
✅ 高可信示例:
"GEO与SEO的核心区别在于优化对象:
SEO优化的是搜索引擎的排名算法,
GEO优化的是生成式AI的引用逻辑。
根据Gartner 2024年的报告..."
为什么高可信?
- 清晰的对比结构
- 可验证的归因(Gartner报告)
- 客观陈述,没有情绪修饰
如何优化?
- 引用权威来源(研究报告、学术论文、官方文档)
- 用数据支撑观点,而非只有观点
- 避免过度情绪化的表达
- 承认不确定性(“可能”、“通常”),而非绝对化
维度4:信息密度(Information Density)
这是什么?
AI非常讨厌"废话"。
它更偏好:单位token内的信息量高。
换句话说,AI希望:
- 一句话 = 一个判断
- 少铺垫,多结构
- 少故事,多结论
AI讨厌的内容模式:
❌ 情绪铺垫过长:
"作为一个在互联网行业摸爬滚打十年的老兵,
我深刻体会到优化的重要性。记得2015年那个
秋天,我第一次接触SEO..."
❌ 比喻过多:
"GEO就像种树,你要先选好土壤(内容质量),
再浇水(持续更新),还要施肥(外部链接),
最后才能开花结果..."
❌ 个人经历占比过高:
"我的第一个客户是个教育公司,当时他们很焦虑,
我花了三个月时间研究,最后发现..."
AI喜欢的内容模式:
✅ 定义体:
"GEO(Generative Engine Optimization)是指..."
✅ 结论体:
"影响AI引用的三个核心因素:
1. 语义相关度
2. 内容结构化程度
3. 信息新鲜度"
✅ 框架体:
"GEO优化分为三个层次:
- 内容层:优化可提取性
- 结构层:优化可理解性
- 策略层:优化可发现性"
数据对比:
| 内容类型 | 信息密度 | AI偏好度 |
|---|---|---|
| 小红书体 | 低 | 📉 |
| 故事体 | 低 | 📉 |
| 心路历程 | 低 | 📉 |
| 定义体 | 高 | 📈 |
| 结论体 | 高 | 📈 |
| 框架体 | 高 | 📈 |
如何优化?
- 开篇不铺垫,直接给答案
- 用列表和表格代替长段落
- 每句话都有明确信息增量
- 删除所有可有可无的形容词
维度5:结构可用性(Structural Usability)⭐
这是什么?
这是人为最容易干预的一项。
AI会隐性评估你的内容是否容易被:
- 摘要
- 列表化
- 引用
- 重组
具体来说,AI偏好:
- 清晰的段落边界
- 标题 = 语义标签
- 明确的"可抽取句"
一个关键洞察:
“写给AI用的内容,看起来会更’冷’”
因为它优先的不是"打动人",而是"易提取"。
案例对比:
❌ 低结构化示例:
GEO是个很有意思的话题,说起来话长。
首先你要知道,它和SEO不太一样,虽然
名字看起来很像,但底层逻辑完全不同,
这个不同体现在很多方面,比如优化目标、
内容组织方式、效果评估方法等等,每一个
都值得深入探讨...
为什么低分?
- 没有明确段落边界
- 信息混在一起
- AI不知道从哪里提取
✅ 高结构化示例:
## GEO与SEO的三个核心区别
### 1. 优化目标不同
SEO优化搜索引擎排名,GEO优化AI引用率。
### 2. 内容组织方式不同
SEO强调关键词密度,GEO强调结构化程度。
### 3. 效果评估方法不同
SEO看排名和流量,GEO看引用次数和归因准确性。
为什么高分?
- 清晰的层级结构
- 每个小节独立完整
- AI可以精准提取任何一个点
结构化清单:
□ 是否有清晰的标题层级(H2, H3)?
□ 每个段落是否只讲一个点?
□ 是否使用了列表和表格?
□ 是否有明确的定义句?
□ 是否有可直接引用的结论句?
如何优化?
| 优化点 | 具体做法 |
|---|---|
| 标题层级 | 用H2/H3明确区分主题和子主题 |
| 段落独立性 | 每个段落能独立回答一个问题 |
| 列表化 | 把并列信息用列表呈现 |
| 表格化 | 把对比信息用表格呈现 |
| 可抽取句 | 每个小节有一句"总结句" |
维度6:冗余惩罚(Redundancy Penalty)
这是什么?
即使你的内容很好,但如果:
- 与已有高分内容重复度高
- 没有新增信息增量
AI会给你负权重。
这解释了一个常见现象:
你写得"很对",但AI已经"见过更好版本"
案例:
场景:用户问"什么是GEO?"
候选内容池:
- 内容A:Wikipedia上的GEO词条(得分:0.92)
- 内容B:你的GEO介绍文章(得分:0.88)
如果内容B与内容A高度重复,AI会给内容B降权。
最终排序:内容A排第1,内容B排第8。
如何判断是否冗余?
AI会计算:
- 与Top候选内容的相似度
- 信息增量比例
- 独特观点占比
评估研究发现,多样性评估通过计算检索文档或生成响应嵌入之间的余弦相似度/距离来衡量信息的广度和多样性,较低的余弦相似度分数表示更高的多样性。
如何优化?
- 找到差异化角度(不要重复主流内容)
- 提供新的案例、数据、视角
- 如果确实是基础概念,给出更深的拆解
- 增加独特的实践经验或方法论
维度7:时序场景匹配(Temporal / Context Fit)
这是什么?
AI会评估你的内容是否:
- 过时
- 适合当前任务类型
- 适合当前回答粒度(概览 / 深入 / 操作)
时序维度:
搜索引擎经常会根据用户查询判断新鲜度需求,采用Query Deserves Freshness机制,对于被视为具有QDF参数的搜索,搜索引擎会倾向于最近发布或更新的内容。
QDF机制识别三类需要新鲜内容的查询:
- 近期事件和热点话题
- 定期重复发生的事件
- 经常变化的信息
举个例子:
查询:"2024年最佳GEO工具"
内容A:2023年发布,没更新
内容B:2024年11月发布
即使内容A质量更高,内容B也会因为时效性得分更高。
场景维度:
| 场景类型 | AI偏好的内容类型 |
|---|---|
| 概览场景 | 定义、框架、分类 |
| 深入场景 | 原理、机制、案例 |
| 操作场景 | 步骤、清单、模板 |
为什么"教程类 > 观点类"?
因为教程类内容:
- 结构化程度高
- 可操作性强
- 适合更多场景
如何优化?
- 定期更新时效性强的内容
- 标注发布日期和更新日期
- 根据目标场景调整内容粒度
- 对于时效性强的话题,及时更新数据
维度8:内容新鲜度(Content Freshness)
这是什么?
这是时序维度的一个子维度,但足够重要,单独拿出来讲。
Google的Query Deserves Freshness(QDF)模型被应用到AI检索中。AI会判断:用户的查询是否需要最新信息?
QDF的四类查询:
| 查询类型 | 示例 | 新鲜度权重 |
|---|---|---|
| 突发查询 | “今天股市” | 极高 |
| 近期查询 | “2024年AI趋势” | 高 |
| 持续更新查询 | “iPhone最新型号” | 中 |
| 常青查询 | “如何学编程” | 低 |
内容新鲜度可以使突发和近期查询的排名潜力提高3-4倍。
判断方法:
AI评估新鲜度的信号:
- 发布日期
- 最后更新日期
- 内容提到的时间信息(“2024年”、“最近”)
- 引用的数据和案例的时效性
如何优化?
- 在标题和开篇标注时间(“2024年最新”)
- 定期更新常青内容
- 引用最新的数据和案例
- 对于时效性强的内容,至少每季度更新一次
维度9:噪声鲁棒性(Noise Robustness)
这是什么?
AI会评估你的内容是否"干净"——是否包含无关信息、误导信息。
噪声鲁棒性衡量RAG系统处理无关或误导性信息而不影响响应质量的能力。
常见的"噪声":
❌ 广告和营销信息:
"GEO是...(在这里插入我们的产品广告)"
❌ 无关的个人经历:
"说到GEO,我想起上周和朋友聊天..."
❌ 过度的免责声明:
"以下内容仅供参考,不构成任何建议,
具体情况请咨询专业人士..."
如何优化?
- 删除所有与核心问题无关的信息
- 广告和CTA放在文章末尾,不要穿插
- 个人经历只在必要时简短提及
- 免责声明简化为一句话
评分之后:不是"选一个",而是"选一组"
很多人以为AI的最终选择是这样的:
排序:内容A > 内容B > 内容C
选择:内容A
不是。AI会选一组内容。
完整流程是这样的:
1. Top-K排序
AI不只看第1名,而是取Top-K(通常K=5到20)。
2. Threshold截断
AI会设一个阈值(比如0.7),低于这个分数的直接丢弃。
3. 去重与合并
AI会对Top-K的内容去重:
- 如果两个内容高度重复,只保留分数更高的
- 如果两个内容互补,都保留
4. 压缩与重组
AI会把选中的内容"压缩"成更紧凑的形式,然后拼接。
最终进入生成层的,通常是:
“一小组彼此不冲突、结构互补的内容块”
重排序使用相似度搜索找到合适的文档,然后根据相关性分数对它们进行排名,通常只有排名最靠前的N个重新排序的文档会传递到RAG流程的下一阶段。
这意味着什么?
| 洞察 | 行动建议 |
|---|---|
| 单篇内容很难"通吃" | 用主题集群覆盖一个话题的多个方面 |
| 互补性很重要 | 不同内容强调不同维度 |
| 去重机制很严格 | 避免内容间高度重复 |
如何验证你的内容得分
理论讲完了,怎么知道你的内容在这些维度上表现如何?
我给你两个方法。
方法1:AI对比测试
步骤:
选一个目标查询
用ChatGPT/Claude/Perplexity搜索
观察:
- 你的内容是否被召回?
- 如果被召回,排第几?
- 最终是否被引用?
对比引用的内容:
- 它们在哪些维度上比你强?
- 你在哪些维度上有优势?
评估表:
| 维度 | 你的内容 | 被引用的内容 | 差距 |
|---|---|---|---|
| 语义相关度 | 高/中/低 | 高/中/低 | +/- |
| 实体对齐度 | 高/中/低 | 高/中/低 | +/- |
| 权威可信度 | 高/中/低 | 高/中/低 | +/- |
| 信息密度 | 高/中/低 | 高/中/低 | +/- |
| 结构可用性 | 高/中/低 | 高/中/低 | +/- |
| 内容新鲜度 | 高/中/低 | 高/中/低 | +/- |
方法2:维度自查清单
如果你不想每次都跑AI测试,用这个清单做自查:
语义相关度清单
□ 开篇直接回答核心问题
□ 使用查询中的关键词
□ 没有跑题和过度延伸
实体对齐度清单
□ 有明确的定义句
□ 绑定到具体实体(产品/公司/技术)
□ 用"X是Y"、"X包含Y"的结构
□ 避免模糊表述("可能"、"大概")
权威可信度清单
□ 引用了权威来源
□ 用数据支撑观点
□ 客观陈述,无情绪化表达
□ 承认不确定性
信息密度清单
□ 开篇无铺垫
□ 用列表和表格代替长段落
□ 每句话有信息增量
□ 删除了可有可无的形容词
结构可用性清单
□ 有清晰的H2/H3层级
□ 每个段落只讲一个点
□ 使用了列表和表格
□ 有明确的定义句和结论句
内容新鲜度清单
□ 标注了发布/更新日期
□ 引用了最新数据和案例
□ 没有过时的信息
冗余检查清单
□ 找到了差异化角度
□ 提供了新的案例或数据
□ 有独特的实践经验
常见误区
误区1:追求所有维度都高分
不现实。
更实际的策略:
- 确保基础维度(语义相关度、结构可用性)及格
- 在1-2个维度上做到优秀(比如实体对齐度+信息密度)
- 其他维度不拖后腿
误区2:以为新鲜度对所有内容都重要
不是。
QDF机制很明确:
- 突发话题:新鲜度极重要
- 常青话题:新鲜度不重要
示例:
查询:"今天股市行情"
→ 新鲜度权重:极高
查询:"如何学Python"
→ 新鲜度权重:低
误区3:以为高分=一定被引用
不一定。
因为还有两个机制:
- 去重机制:如果有更高分的类似内容,你会被过滤
- 多样性要求:AI会选一组互补的内容,不会都选同类型
解决方案:
- 找到你的差异化角度
- 在主题集群中,让每篇内容强调不同方面
写在最后
Retrieval Scoring不是一个神秘的黑箱,而是一个可以理解的多维评估体系。
你不需要知道每个维度的具体权重,但你需要理解:
- AI在评估什么
- 你的内容在哪些维度上有优势
- 你的内容在哪些维度上有短板
这篇文章给你拆解了9个核心维度:
| 维度 | 重要度 | 可干预度 |
|---|---|---|
| 语义相关度 | ★★★★★ | 中 |
| 实体对齐度 | ★★★★★ | 高 |
| 权威可信度 | ★★★★☆ | 中 |
| 信息密度 | ★★★★☆ | 高 |
| 结构可用性 | ★★★★★ | 极高 |
| 冗余惩罚 | ★★★☆☆ | 中 |
| 时序场景匹配 | ★★★☆☆ | 中 |
| 内容新鲜度 | ★★★★☆ | 高 |
| 噪声鲁棒性 | ★★★☆☆ | 高 |
关键洞察:
不是每个维度都要做到完美。更实际的策略是:
- 确保基础维度(语义相关度、结构可用性)不拖后腿
- 在1-2个维度上建立优势
- 找到你的差异化角度
最后,记住一点:理解评分机制不是为了"破解算法",而是为了"创作更好的内容"。
AI的评分逻辑,本质上反映的是"什么样的内容更有价值、更易使用、更值得信任"。当你在优化这些维度时,你不只是在迎合AI,你在让内容变得更好。
一句话总结
Retrieval Scoring是AI在召回候选内容后、生成回答前,对每个内容进行的多维评估,包含语义相关度、实体对齐度、权威可信度、信息密度、结构可用性、冗余惩罚、时序场景匹配、内容新鲜度、噪声鲁棒性等九个核心维度,理解这些维度不是为了破解算法,而是为了创作更有价值,更易提取更值得信任的内容,因为AI的评分逻辑,本质上反映的就是内容质量的客观标准。
我是「AioGeoLab」主理人塔迪Tardi,AioGeoLab是追踪、研究、实验、创作并分享海外顶级GEO实践者第一手最佳实践的技术类社区,为广大GEO、SEO从业者提供深度的内容、社群、推广、培训、平台相关的服务。
我们认为:知识的应用和经验的碰撞才能够赋予知识生命力,对于一个新兴的领域 - GEO,尤其如此。我们会逐步开放我们的社区以及知识库,感兴趣的朋友可以先加小编的微信 - tardyai2025。
