Spider对于网站的抓取,最佳状态就是及时地把所有新出现的网页和有更新的旧网页抓取一遍就可以了。不要少抓也不要多抓,少抓可能抓取不全,多抓就有些浪费服务器和带宽资源了,并且对收录和排名没有什么影响。但是在实际情况中,大部分有一定更新量且比较重视百度搜索流量的网站,都认为百度Spider对网站的抓取量越大越好。并且多数人也认为,百度Spider对一个网站平均抓取量的大小也和网站的权重有关,抓取量在一定程度上也可以反映出网站的权重,所以大都抱着多多益善的心态来使用平台的压力反馈工具。
压力反馈工具支持站长自己设置抓取压力,虽然百度不一定按照站长的设置进行调整,但绝大多数站长还是只把这个压力调大而不调小,目前百度Spider默认的抓取压力还是比较靠谱的,鲜有被抓瘫痪的网站。根据经验,盲目地调大这个抓取压力是没有什么明显作用的,不过当网站或增加新模块,或突然增加新内容,或改版时,就可以把这个抓取压力调大一些,以促进百度Spider对新网页新内容的发现和抓取。
压力反馈工具给出了百度Spider对验证网站一个月以内的抓取压力曲线图,这个曲线图数据一般会延迟两天。如果曲线图有所异常,那么很可能网站在那天也有所异常。如图8-4所示为某百度对某网站的抓取压力图,由图可以看出3月3日百度对该网站的抓取次数突然明显增多,然后逐渐恢复到正常水平,实际上当天该网站数据库发生错误,全站404了4个小时,所以就造成了百度对该网站抓取量的猛增。在此有必要提醒,当网站发生类似事故时,服务器应该返回503而不是404。
如果某天发现百度对自己网站的抓取压力不正常,然而当天网站也没有发生异常状况或变动,此时不用惊慌,可以和其他站长沟通一下是否对方也有类似情况。比如在2013年春节左右有一天百度Spider放假了,我所问的朋友都反馈他们网站当天的百度抓取压力为0。另外当下有些不足的是,现在抓取压力工具并没有“全域”的数据,只能查单个子域名的数据,即使验证了不带WWW的顶级域,也并不能得到全站的抓取压力数据。所以大家在使用此工具时要了解,如果网站有多个子域名或有多级域名,那么百度对网站全站的实际抓取量需要自行进行计算,或暂时不能得到百度对全域的准确抓取量。也希望后续平台可以提供全域的数据。压力反馈工具百度官方介绍地址:http://zhanzhang.baidu.com/wiki/77。
微信号:xjwseo长按、关注