码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘

SEO优化评论77

今天开始探讨正式内容的第一讲了:百度蜘蛛。针对广泛流传的百度蜘蛛IP类型做一下深入探讨。

咱们知道,知识是零散的点,经验是点的连线。所以大家在学习的时候养成大局观,比如说,我们现在在这个位置。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片1

关于码迷:

7年SEOer,摩天楼内容助手作者,专注SEO算法研究,欢迎志同道合的盆友加我交流。

探索方法

码迷通过对7个网站的爬虫日志做追踪,将百度蜘蛛分为收录蜘蛛、首页收录蜘蛛、快照蜘蛛三大类。

码迷用控制变量法,通过现象看规律,通过规律看本质,通过本质讲对策。

通过线上实验来一步一步做验证推导过程。

百度蜘蛛类型有哪几种

下图是网上广泛流传的百度蜘蛛IP类型说明,其中123开头的认为是降权蜘蛛,220开头的一般认为是权重蜘蛛。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片2

下图是某站长工具提供的蜘蛛日志分析工具,也是将百度蜘蛛分为高低权重之分。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片3

到底有木有降权蜘蛛

看了百度站长的平台的回复(年代比较久远),百度官方回复是“没有”。

http://bbs.zhanzhang.baidu.com/thread-6387-1-1.html

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片4

码迷也认为蜘蛛没有权重高低之分

为什么分降权蜘蛛、权重蜘蛛之说?

如果蜘蛛有权重高低之说,难道百度一开始就知道你的网站质量吗,码迷觉得一脸懵X,百度蜘蛛你真TN的可以,都能预测未来了。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片5

百度蜘蛛分类的猜想

百度爬虫是干什么的,就是把你的网站页面内容扒下来,然后把数据拆分为标题、摘要、头图、正文等结构化数据,放到百度的数据库里面,提供给用户搜索。

但是网页数量以百亿计,每个页面都有快照备份是不现实的。

码迷大胆猜想,百度蜘蛛应该有功能之分,并未高低权重之说。

码迷(网站www.mamioo.com)把百度蜘蛛的爬虫日志存放到数据库里面,进行分析追踪。看到了几个现象,我们再总结规律,探讨本质。

现象1:内页爬取规律

新上的某个网页的爬取记录,我们可以看到,通常都是123开头的蜘蛛先行,然后220开头的蜘蛛后行。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片6

然后隔1-2天,快照必会有更新。

比如2019年7月27号220开头蜘蛛访问之后,7月28日快照就更新了。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片7

现象2首页爬取规律

看下图,mamioo首页的百度爬虫日志,19年6月26上线后,基本上也是123开头的爬虫先行,220爬虫后行,隔天快照更新。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片8

现象3页面404后的百度爬取规律

码迷人为实验了2个404页面,123开头的爬虫爬取后,一般是2次404之后,不再派爬虫来爬了。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片9码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片10

现象4劣质页面爬取规律

码迷也试验了随机段落混合而成的内容(比如下图妹子不错,但妹子上面的文字很烂),百度123开头蜘蛛抓了一次就再也不抓了,5月11号上线,至今无快照。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片11

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片12

看来百度对随机拼凑的内容还是有识别的。

现象5百度站长主动推送后爬取规律

通过站长主动推送接口推送后,一般7天内就有123开头爬虫到访,如果内容质量较好,会有220开头爬虫二次到访,一般3天内必有快照。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片13

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片14

现象6初次提交仅通过百度主动推送更新数据

码迷有个新站,百度爬虫一直不来,通过主动提交、sitemap、站长反馈都不来蜘蛛,就直接通过更新数据方式进行提交。

当天提交后,次日220开头百度爬虫造访,但3天内不一定有快照,一般需要2个周左右。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片15

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片16现象7部分百度蜘蛛只爬首页

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片17

总结一下百度蜘蛛抓取规律,要不大家都凌乱了。

我是干扰:看了很多采集码迷文章的,默默诅咒一下吧,码迷真的非常讨厌拿来主义。

规律1

123开头蜘蛛先行,对网页做初步分析,以便为后面正式到网页开展工作做准备。

规律2

220开头蜘蛛一般在123蜘蛛造访后,再次造访。

规律3

如果网页不过关, 220开头蜘蛛不会造访。

规律4

更新页面是220开头直接来造访。

如果大家还是拐不过弯来,码迷把某单页站点的123,220蜘蛛每日访问次数做成柱状图。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片18

请看下图,蓝色是123开头的蜘蛛,橘色是220开头的蜘蛛

可以说不管是高质量页面还是低质量页面都有123,220开头的蜘蛛来,还经常成对出现。

好啦,你们是不是明白过来了?

结论1:123开头IP是收录蜘蛛

所谓收录蜘蛛是指,百度爬虫造访后,百度后端会通过一系列判定手段,如反作弊处理、原创度检测等等,决定是否能够可以收录,是否可以牵引百度快照的蜘蛛到访。

无快照的页面(不收录,无索引)

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片19

结论2:220开头的是快照蜘蛛

当收录蜘蛛检测网页通过了收录标准之后,通过快照蜘蛛生成结构化数据,进入倒排索引。

这个时候的网页才有快照,才能被用户搜索到。

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片20

结论3:每次快照更新前,收录蜘蛛、快照蜘蛛均有造访

结论4:收录蜘蛛与快照蜘蛛访问比率

一般不超过2:1, 如果收录蜘蛛出现次数远远大于快照蜘蛛,说明网页内容不过关。

结论5 没有什么所谓的提权蜘蛛之说

所谓的高权重蜘蛛是当网页达到快照的收录标准后才会来访问的,不是通过外链直接来的哦。

SEO策略延伸

码迷一直倡导科学的SEO,但是现在绝大部分SEO从业人员只知道每天去写内容,然后就等着内容收录,等着排名。

有些人总提出这样的问题:

为什么我的网站一直没收录?

为什么有收录了却没有排名?

我们已经知道可以不用通过“site”命令,通过百度爬虫日志,就可以获取网站的收录情况。

所以说,网站爬虫分析系统非常重要!

一个好的网站爬虫分析系统有如下几个功能点:

功能1 整个网站的抓取频率趋势

可以简单了解网站在百度眼中的质量。

抓取频率越高,说明百度越喜欢。

如果抓取频率一直走低,就要关注近期的内容质量是否变差了。

如果频率大幅度降低,查看是不是网址有报错。

功能2 查看收录蜘蛛与蜘蛛比率

只有快照蜘蛛访问过的页面才是有效收录,才能获取百度排名。所以如果很多页面光有收录蜘蛛(123开头的),而快照蜘蛛(220开头)较少,内容一定有问题。

查一下内容质量(摩天楼内容助手可以有效解决这一痛点)、内容广告之类是否触发了百度算法。

功能3 提取重要排名页面的抓取规律

一般情况下,百度会对已有的重要排名页面定期更新快照,123,220开头的蜘蛛定期轮流到访。

如果重要排名页面的抓取频率持续走低,说明排名预计会有所下降,尽早查找原因。

另外重要排名页面一般爬虫频率较大,是重要的新内容发现入口,所有如果有相关的新内容,可以在该页面布局,以达到秒收的效果。

如果有编程经验的同学,可以按照以上码迷的想法打造自己的爬虫分析系统。

今天就讲到这里,下一节码迷将对“百度爬虫抓取频率以及优化策略 ”展开探讨,欢迎大家关注。

转载许可

今天就这些,下一节我们开撕百度内部基本流程。

优质评论前10名将会获得码迷整理的66个百度专利,先到先得。

本系列独家首发于www.mamioo.com,同步发布于公众号”码迷SEO“,未经允许禁止转载采集!违者码迷将诉诸本站法律顾问予以追究相关法律责任!

码迷SEO独家内参(二)百度蜘蛛类型及蜘蛛抓取规律揭秘-图片21

文末福利:

摩天楼内容助手正在内测,为你排查SEO中原创内容无排名、关键词布局低质、网页主题不集中、相关词数量不足、相关词密度不均5大网页质量问题, 加码迷QQ群734299959可下载软件,了解更多。

点击左下方【阅读原文】可查看本篇网站文章。

 
天津seo优化:建设网站应不应该解析多个域名? SEO优化

天津seo优化:建设网站应不应该解析多个域名?

了解网站建设知识的朋友一定都知道,我们在域名服务商购买的域名使用起来需要进行解析,而解析又分为很多种方式比如二级域名解析泛解析等。网络上有很多的网站都采用着不同的解析形式,哪一种最适合seo优化,不同...
熊掌号与SEO的关系 SEO优化

熊掌号与SEO的关系

1.1 熊掌号能做什么百度熊掌号是内容和服务提供者入驻百度生态的认证账号,致力于帮助内容和服务提供者便捷、高效地连接全网用户,并充分利用百度生态开放的优势,获取流量、沉淀用户、塑造品牌,实现自身价值的...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: