搜索引擎工作原理简单模拟分享!

网络营销评论83

这里的模拟非常简单和傻瓜,但可以说明搜索引擎是如何处理页面的过程。

第一步:通过蜘蛛抓取页面

什么是蜘蛛?

如Googlebot、baiduspider(全球比较著名的有美国谷歌,中国百度,俄罗斯Yandex,韩国NHN等,雅虎这些就忽略了。)

如何抓取页面?

以文本形式下载,送会服务器。可能会做一些预处理,比如:压缩等。

可能妨碍蜘蛛抓取的行为:跳转、识别分辨率。

第二步:网页文件处理

首先过滤所有HTML标签、CSS样式表、JS代码。

搜索引擎工作原理简单模拟分享!

百度首页经过处理后得到后的样子:

百度一下,你就知道新 闻网 页贴 吧知 道MP3图 片帮助高级 空间 | 更多>>把百度设为首页企业推广|搜索风云榜|关于百度|AboutBaidu©2018Baidu使用百度前必读京ICP证030173号

第三步:识别文字内容

通过对过滤后文字内容的分析,来判断网页的核心内容。

搜索引擎程序通过对上面文字的分析,发现以下信息:

  1. 一共有95个字符;其中56个中文字。

  2. “百度”出现4次,共8个中文,占16个字符。

  3. 8÷56≈0.14 ≈14% 16÷95 ≈ 0.16≈16%

判断结论:本页面和关键词“百度”有密切关系。

第四步:进行权重分值技术

假设关键词重复1次得1分,那百度首页的得分就是“4”

当然,搜索引擎的真实计算过程非常负责,有数百个参数参与计算。

第五步:存入排名数据库

通过以上各种分析后,一个页面就可以存入排名数据库了(也叫索引数据库)。

百度首页就可能放入一个叫“百度”的小数据库中。

以后当用户搜索“百度”时,就打开“百度”小数据库,然后按分值排列,做成HTML展示到用户面前。

搜索引擎的处理过程:

就好比把采来的草药,经过处理,放入对应的抽屉中一样。

 
太阳和我躲猫猫 网络营销

太阳和我躲猫猫

上次,在黄昏,和太阳比赛,看谁先到家。于是,就有了一路夕阳一路南。这次,于清晨,太阳和Sara玩起了躲猫猫游戏。你猜怎么着了?太阳说:“来呀来呀,快来抓我呀,你找不到我,”哟,还跟Sara玩起了“犹抱...
什么是品牌策划 网络营销

什么是品牌策划

品牌策划的着手点策划品牌就要从下列方面入手:一、以消费者为中心下列因素直接影响消费者的选择:A、文化程度消费者文化程度的不同,对事物的认识程度也不同,认识程度决定消费的观念。对于产品的选择上,文化程度...
优秀员工,从不抱怨(多读几遍) 网络营销

优秀员工,从不抱怨(多读几遍)

二,抱怨能带来的是什么任何一个市场化运营的企业,都希望聘请一位能为企业解决问题和带来价值的员工,而不是一个喋喋不休的评论家。1,抱怨薪水人总对自己抱有很高的期望值,认为自己应该得到重用,应该得到丰厚的...
企业网站装ssl证书有必要吗? 网络营销

企业网站装ssl证书有必要吗?

SSL证书其实就是CA对用户公钥的认证,包括电子签证机构的信息,公钥用户信息,公钥,权限的签名和有效期。CA组织是第三方机构,负责验证公钥的有效性。它负责指定用于验证用户身份和签署SSL证书的策略和过...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: