从概念上讲,我们可以将相关性判定与相关文档的排名分开,即使它们是在搜索引擎中作为单个步骤实现的。在这个思维框架中,相关性步骤首先对每个页面进行二元(真/假)决策,然后排名步骤命令文档返回给用户。
我将在本文后面提供一些数据,生动地说明这种划分以及它与不同排名信号的关系。
查询和文档模型
将查询和文档从原始字符串转换为可 布韦岛商业指南 以进行计算的内容是计算相似度得分的第一个障碍。为此,我们使用“查询模型”和“文档模型”。这里的“模型”只是一种奇特的说法,即字符串以某种其他方式表示,从而使计算成为可能。
上图展示了查询“philadelphia phillies”和维基百科关于费城人队的页面的这一过程。计算相似度得分的最后一步是通过评分函数运行查询和文档表示。
查询模型
下图说明了一些不同类型的查询模型:
底部的构建块包括标记化(将字符串拆分成单词)、单词规范化(例如,词干提取,删除常见单词的结尾)和拼写纠正(如果查询包含拼写错误的单词,搜索引擎会对其进行纠正并返回纠正后单词的结果)。
这些构建块之上构建了查询分类和意图等内容。如果搜索引擎确定某个查询具有时间敏感性,它将返回新闻结果,或者如果它认为查询意图具有交易性,它将显示购物结果。
相关性与排名
-
- Posts: 30
- Joined: Mon Dec 23, 2024 3:41 am