搜索引擎工作原理简单模拟分享！

2020年8月31日 14:58:57网络营销评论83

这里的模拟非常简单和傻瓜，但可以说明搜索引擎是如何处理页面的过程。

第一步：通过蜘蛛抓取页面

什么是蜘蛛？

如Googlebot、baiduspider（全球比较著名的有美国谷歌，中国百度，俄罗斯Yandex，韩国NHN等，雅虎这些就忽略了。）

如何抓取页面？

以文本形式下载，送会服务器。可能会做一些预处理，比如：压缩等。

可能妨碍蜘蛛抓取的行为：跳转、识别分辨率。

第二步：网页文件处理

首先过滤所有HTML标签、CSS样式表、JS代码。

搜索引擎工作原理简单模拟分享！

百度首页经过处理后得到后的样子：

第三步：识别文字内容

通过对过滤后文字内容的分析，来判断网页的核心内容。

搜索引擎程序通过对上面文字的分析，发现以下信息：

判断结论：本页面和关键词“百度”有密切关系。

第四步：进行权重分值技术

假设关键词重复1次得1分，那百度首页的得分就是“4”

当然，搜索引擎的真实计算过程非常负责，有数百个参数参与计算。

第五步：存入排名数据库

通过以上各种分析后，一个页面就可以存入排名数据库了（也叫索引数据库）。

百度首页就可能放入一个叫“百度”的小数据库中。

以后当用户搜索“百度”时，就打开“百度”小数据库，然后按分值排列，做成HTML展示到用户面前。

搜索引擎的处理过程：

就好比把采来的草药，经过处理，放入对应的抽屉中一样。