互联网上每天都有海量的内容在产生与更新,搜索引擎对其抓取索引,其中倒排索引是其中非常重要的一环。
可以说,正确的理解倒排索引,可以对我们网站的优化做出适当的调整与优化。
一、什么是倒排索引:
倒排索引是实现单词—文档矩阵的一种具体存储形式。
通过倒排索引,可以根据单词快速获取包含这个的文档列表。
倒排索引主要由:单词词典和倒排文件组成。
二、理解倒排索引:
我们先来看3组文档,我们将文档编号分别列为1、2、3。
这3个文档里,核心词是“卫生间隔断”,如果你在搜索引擎上,直接搜索卫生间隔断,抛开文章内容,单看标题,哪个排第一?
没错,就是文档1会出现在第一位,为什么?
因为倒排索引里,会通过单词词典,统计一个单词在文档里出现的位置。
我们将上述文档里出现的词,都赋予一个ID。
这是一个最简单的倒排索引示意图:
之所以说上图是个最简单的倒排索引示意图,是因为它只记载了哪些文档包含了哪些单词。
接下来,我们在看看一个稍微复杂些的示意图:
除了出现文档包含的单词,还记录了文档出现单词的次数。
接下来,我们在看一个更接近完整的倒排索引示意图:
该示意图,不仅包含了文档出现的单词次数,还包含了出现的位置。
有了这个较为完整的倒排索引,搜索引擎就可以更好的响应用户的需求。
三、倒排索引对网站优化的作用:
看完上面的,我们可以主要总结两点运用到优化工作上:
1.关键词出现的位置应该要尽量靠前,即靠左;
2.关键词出现的频率应该适当,既不应堆砌,也不过于稀少;
我们可以看下面这个例子:
以上。