【蜘蛛侠】优秀的搜索引擎爬虫spider应该具备的特性

网络营销评论79

  搜索引擎爬虫,也称作搜索引擎蜘蛛、机器人。是一种遍历抓取页面的程序。搜索引擎爬虫以其不同的应用,分为批量型爬虫、增量型爬虫和垂直型爬虫。不同的搜索引擎爬虫蜘蛛实现方式不同,但一个优秀的搜索引擎爬虫应该具备以下几个特性:

  1、搜索引擎特性:高性能

  所谓的搜索引擎高性能是指爬虫抓取网页的速度,单位时间内能够下载的网页数量越多,则爬虫的性能就越高。

  提高搜索爬虫的性能,在设计时程序访问磁盘的操作方法和具体实现时的数据结构的选择有很大的关系。例如对于待抓取的url队列和已抓取得url队列,因为url的数量非常大,不同的实现方式所表现出来的性能参差不齐,所以,高效的数据结构队爬虫的性能影响很大。

  2、搜索引擎特性:可扩展性

  正如上面所描述的那样,爬虫需要抓取的数量之大,是不可想象的。即使单个的搜索机器人性能再高,要将所有的网页都下载,也是需要相当长的周期的。为了尽可能的简短搜索引擎抓取网页的周期,爬虫系统程序应该有很强的可扩展性。也就是说很容易通过增加抓取服务器和爬虫的数量来打到这个目的。

  3、搜索引擎特性:健壮性

  爬虫所面临的网站类型千差万别,可能会遇到HTML代码不规范,服务器宕机,甚至是爬虫陷阱等状况。爬虫是否能对各种异常情况进行及时正确的处理很重要。健壮的搜索引擎爬虫程序应该能做到,在再次启动爬虫时,能够恢复之前抓取的内容和数据结构,而不是再次启动爬虫程序的时候,还是从头部开始,这也是爬虫健壮性的一种体现。

  4、搜索引擎特性:友好性

  爬虫的友好性包含以下两个含义:第一就是保护网站的部分私密性。就是要很好的遵守搜索引擎的禁爬协议robots协议。第二就是减少被抓取网站的网页负载。

---------------------华丽分割线------------------------

【好文分享】

如果你觉得这篇文字对你有用,请点击右上角分享到“朋友圈

【关注我】

微信搜索“李现龙”或扫描下方二维码,每日最炫搜索引擎风向和趋势送到您面前

 
做个网站就是找对象,适合的才是最好的。 网络营销

做个网站就是找对象,适合的才是最好的。

前言对于网站建设而言,即使做出来的效果十分炫酷,但是如果用户不买账,那么这样的网站设计还是难以获得预期的效果。毕竟我们设计的网站,必须要立足于用户体验,只有在用户体验的突出的前提下,再通过适当的网页美...
[offer come 魏小康] 创业公司如何招人? 网络营销

[offer come 魏小康] 创业公司如何招人?

每天都有1~2家创业公司找到我们招人,绝大部分公司我们都只能婉拒。很多次都会被对方或者朋友抱怨,说我们挑剔……我们只能苦笑,其实不是我们不想帮助大家招人,而是绝大部分创业公司依靠猎头招聘,是根本不现实...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: