相关性与排名

rakibhasanbd4723 · Post by **rakibhasanbd4723** » Wed Mar 19, 2025 3:19 am

从概念上讲，我们可以将相关性判定与相关文档的排名分开，即使它们是在搜索引擎中作为单个步骤实现的。在这个思维框架中，相关性步骤首先对每个页面进行二元（真/假）决策，然后排名步骤命令文档返回给用户。

我将在本文后面提供一些数据，生动地说明这种划分以及它与不同排名信号的关系。

查询和文档模型
将查询和文档从原始字符串转换为可布韦岛商业指南以进行计算的内容是计算相似度得分的第一个障碍。为此，我们使用“查询模型”和“文档模型”。这里的“模型”只是一种奇特的说法，即字符串以某种其他方式表示，从而使计算成为可能。

上图展示了查询“philadelphia phillies”和维基百科关于费城人队的页面的这一过程。计算相似度得分的最后一步是通过评分函数运行查询和文档表示。

查询模型
下图说明了一些不同类型的查询模型：

底部的构建块包括标记化（将字符串拆分成单词）、单词规范化（例如，词干提取，删除常见单词的结尾）和拼写纠正（如果查询包含拼写错误的单词，搜索引擎会对其进行纠正并返回纠正后单词的结果）。

这些构建块之上构建了查询分类和意图等内容。如果搜索引擎确定某个查询具有时间敏感性，它将返回新闻结果，或者如果它认为查询意图具有交易性，它将显示购物结果。