很多人对收录与索引的认知比较模糊,根据百度站长平台的信息报料,据说百度工程师也说过“收录与索引是一回事”,不过根据百度站长学院给出的信息显示,收录与索引并不一样,其实只要你真正有关心这两个数据就会发现他们确实有不一样的意义。
图片源于百度站长学院
根据阿峰的经验,收录是指的被蜘蛛抓取过的页面,只要你这个页面被蜘蛛爬过了就算是收录了,尽管它并没有被放出来。而索引,是指被抓取过的页面并已经在搜索引擎建库放出来给用户搜索的页面,关于索引更加具体的介绍大家可以看下之前的一篇文章《搜索引擎原理 — 索引》。从这点我们可以看出,必须是先收录,再才有索引,并且收录量是会大于索引量的。
我们看下百度站长学院给出的收录与索引的意义:
【收录意义1】收录是索引的前提,站点需要保持服务器稳定(参考抓取诊断工具、抓取异常工具)、robots正确(《robots写法和需求用法对应表》),为Baiduspider抓取铺平道路
【收录意义2】Baiduspider只能处理已分析过的页面,面对新旧页301和移动适配,可为已收录页面完成权值评分以及流量切换
【索引意义1】只有被建入索引库的网页才有获得流量的机会(网页虽然被建入索引库,但获得流量的机会并不同,无效索引很难获得流量)
【索引意义2】新闻源站点(新闻源目录)内的链接,必须先被网页库建索引,才有机会出现在新闻检索中
这里可以看出,收录主要是针对抓取页面,包括分析页面、URL跳转(301、移动适配等),这一系列完成后会转至索引库,这样才算是被索引了,用户才有可能才搜索引擎搜索到这个页面。但是收录后分析页面需要一个时间过程,这也是为什么很多站点,特别新站蜘蛛抓取页面后,不会第一时间放出来的主要原因。如果想达到秒收或者隔天收录放出的效果,对网站内容质量和数量有一定要求,并且还要多引蜘蛛。
至于怎么查询收录量以及索引量,百度并没有给出查询收录的工具,我们所使用的各种站长工具查询到的收录量并不准确,只能通过分析网站日志来了解到网站有多少页面被蜘蛛抓取过。索引量的查询我们可以通过百度站长工具中索引量功能查看到,前提是你的网站有验证权限。
最后阿峰提一下"site"命令,我们使用“site”命令查询一个网站收录页面的时候,往往排名越前的页面权重越高。
文:Peak/2016.04.13
操
看完不点赞,简直耍流氓