搜索引擎爬虫研究与爬去原则

网站推广评论41
搜索引擎爬虫研究与爬去原则-图片1

搜索引擎爬虫研究与爬去原则-图片2

上次跟大家分享了《跟大家介绍一下搜索引擎呈现网络的过程》,不知道大家都有所收获或者是疑问没有,如果有的话可以相互的交流,搜索凡事网络工作室即可联系本人哦。今天主要是跟大家分享一下搜索引擎的工作第一个环节的知识:互联网之爬虫。我们先来看一下它的定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。从以上的定义来看,百度蜘蛛,谷歌机器人都属于爬虫的一种,而爬虫主要是按照一定的规则,自动抓取信息的脚本或者程序,这个不难理解,有经验的程序员都能够独立的编写出来一套比较完整的蜘蛛程序,用来收集网络信息,充实自己的网站。其实很多的信息采集软件也是采用了这种技术。那么我们在来看一下蜘蛛到底进行的什么工作:)

搜索引擎爬虫研究与爬去原则-图片3

每一种类型的资源,都有相应的蜘蛛爬虫来搜集,当然解析的方式也各不相同。我们经常能够在网站的日志中看到百度的spider和image-spider,不同的爬虫利用其自身的规则来对其页面进行解析。即使是这样, 我们也能够看到爬虫在爬去页面的时候还是有一定的规律性的,这种规律性则是来自于搜索引擎效率最大化的取舍。

  • 宽度优先遍历原则:这个原则是从网站自身做起的,根据网站的层级来抓取。因为我们在做网站的时候都有一个优先的考虑,比如我第一个想让搜索引擎看到的就是首页,其次的各个目录页面,再其次就是内容页面,蜘蛛也是利用这一点来抓取。

  • 非完全pagerank排序:这个原则就是利用谷歌的pr值来计算的。因为每一个网页在谷歌中都会有一个评分,根绝这些评分高低来抓取。如果完全计算就比较耗费计算资源,所以它就采用高pr值的网页传递出来的链接肯定都是可靠的。

  • OPIC(online page importance computation在线页面重要性计算):这一个原则跟pr值计算相差无几,在采集的网页中来计算每一个网页的重要性,然后在进行优先抓取。

  • 大站优先策略:这个毋庸置疑了。因为大战比较符合信赖的原则。

其实我们可以看到,这种原则其实是对抓取的有限性和网页的无限性的一个折中,即在有限的时间内抓取网络中更为重要的页面和资源。当然我们也需要去了解网络爬虫工作的原理,这样的话更有利于我们去做SEO优化。

搜索引擎爬虫研究与爬去原则-图片4

搜索引擎爬虫研究与爬去原则-图片5

 
利用蜘蛛池加快新网站收录 网站推广

利用蜘蛛池加快新网站收录

搜索引擎收录,对于新站而言,一直以来是困扰SEO人员一个重要的问题,在实际操作中,我们会看到,有的新站收录率很高,有的新站却收录率很低,这让SEO新人经常产生诸多疑惑。二、页面质量对于搜索引擎收录而言...
微商怎么做?微商快速收益的八大营销技巧 网站推广

微商怎么做?微商快速收益的八大营销技巧

做微商是一种微营销模式,客源少,营销困难都是一些刚做微商会出现的问题……你是否也有这样的“窘境”呢?下面让小编教你几招吧!1、设计话题成交=流量*转化,要实现成交的结果,首先要解决流量,这里的流量指的...
网站内的老文章如何才能让百度重新收录? 网站推广

网站内的老文章如何才能让百度重新收录?

关于新网站内容不能及时被百度收录的问题,可以说是一种比较常见的现像,但已经具备了一定权重的老网站,如果所发布的文章,不能被百度收录,则很有可能是网站有问题,或者文章内容有问题了。如果大家想一下,有一些...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: