因为site指令并不是对整个索引库进行检索,再加上搜索引擎服务器太多,可能会偶尔造成数据没有完全同步,从而出现了一些奇怪的查询结果。
1.同时查询得到的数据不同
有时不同人使用site指令查询同一个网站的“收录量”得到的结果是不同的。由于搜索引擎的缓存是多级的,有效索引也会有多个库,并且不同电脑连接的服务器也可能不同,所以会导致不同人查询所得到的结果不同,有可能是访问的数据库并不是一个。这种情况比较普遍,但是在同一个网站中出现的次数也不会太多,并且大部分情况下并不意味着网站在搜索引擎中被“拔毛”或被“K”。当然具体情况还要具体分析。
2.出现非目标网站的URL
出现这种情况一般有两个原因:第一个原因是搜索引擎自己“抽风”了。比如,2012年11月初百度就出现过一次。如图3-14所示,当时很多站长和东莞seo人员在查询自己网站的收录情况时,发现查询结果中出现了大量其他网站的URL,经百度工作人员确认,当时确实是site算法出现错误。这种情况极为罕见。
第二个原因是搜索引擎没有识别特殊后缀的域名。如图3-15所示,在百度中搜索“site:topit.me”时出现了百度翻译的数据。不要看到百度自己的产品,就说百度什么流量都在抢,仔细看一下图片,百度翻译“site:topit.me”翻译成了“网站:topit.me”。可见百度翻译把
“site:topit.me”识别成了一串英文字符,并给出了翻译结果,把“site”翻译成了“网站”。
如图所示为在百度中搜索一个后缀为.me网站的URL,可见百度并没有把这个URL当做一个URL处理。因为当百度发现网友查询的是URL时,会给出特定的提示,如图3-17所示。所以如果使用的域名太过特殊,就可能导致搜索引擎不能识别该域名,从而不会按照针对域名相关查询提供结果的形式来展示查询结果。
在此也需要提醒一下大家,虽然特殊的域名只要解析成功后,搜索引擎就可以像一个普通用户一样进行访问抓取,且并不会影响到网站的收录和流量,但是会有不少高级指令的搜索结果不太准确。如果特别注重这些数据的分析,最好不要使用后缀太过特殊的域名。
3. “结果数”大变动
对于site指令来说,站长和东莞seo人员最关心的就是这个指令所给出的结果数了。site指令估算出来的“结果数”也经常会有大变动。如表3-1所示为使用chinaz的历史数据查询工具查询某网站的历史“收录量”数据,第二列的数据是百度site指令的数据,第三列的数据是谷歌site指令的数据,可见都出现了大起大落的现象。有兴趣的朋友可以使用各站长工具的历史数据功能查询一下一些有规模网站的历史数据,很多都有“腰斩”现象。这是因为搜索引擎参考的缓存或有效索引的“库”不同或者出现了问题而产生的。site指令结果数中,这种大部分网站同时出现的大变动,一般都不是网站自身的问题,也不是百度索引数据减少的问题,而是site指令本身计算方法和参照数据的问题,所以可以不需要担心,有那么多网站和你做伴,怕什么呢?百度不会一次性抛弃这么多网站的。
4. “结果数”和显示条数严重不符
有部分朋友偶尔会发现有些域名的site“结果数”和显示出来的结果条数严重不符,比如显示“结果数”有100个,但是下面只有3条结果。这种情况就是上面所提到的估算的结果,在缓存或者有效索引中只有该网站的3条URL,但是搜索引擎真正索引的网页数可能要比这个多很多。这种现象出现的原因一般有三种:
· 百度自己“抽风”;
· 新网站新索引的网页还没有真正放出;
· 老网站之前已经放出的一些网页被百度在缓存或有效索引库中删除。
一、 site结果排序和权重的关系
在交换友情链接时,站长和东莞seo人员一般都习惯在搜索引擎中,使用site指令查看一下对方首页是不是在第一位,来判断对方网站是不是被降权了。百度官方对外解答时说“site指令的结果排序更多地是随机的”。但站长和东莞seo们一般理解为:当没有确切搜索词时,也就不需要判断相关度,那么网页的权重就成了排序的最主要标准,所以site结果列表中的排序代表了一定的网页权重对比关系。并且在百度搜索中使用site指令查询大部分网站,都会发现结果的首页或前几页都明显是权重比较高的页面。所以站长们一般认为如果在百度中使用site指令查询目标网站时,出现结果中找不到首页的情况,并且直接查询首页的URL是已经被搜索引擎收录的,这时该网站有可能是被搜索引擎降权了。当然这还需要进一步分析确定。
要注意的是,这里说的是“找不到”首页。有时在查询个别网站时,会出现首页不在第一位,而是在搜索结果首页的某个位置的情形。此时就要详细分析一下,根据网站首页的目标关键词和网页Title的搜索排名情况,来确定网站是不是真的被搜索引擎降权了。现在有不少网站的首页权重并不是最高的,网站重点推的子域名或目录可能比首页的权重高,从而导致使用site命令查询时,首页不在第一位;有时会发现在百度搜索中,包含大型门户在内的大量网站都出现site指令首页不在第一位的现象,这些情况就不是网站被降权了。
site结果中的排序和网页权重会有一定关系,但是使用site来确定一个网站是不是被百度降权,需要进行详细分析。网站被搜索引擎降权会有很多种情况,首页被处罚只是其中一种而已。有的被处罚的网站会没有搜索流量,但是site指令的结果排序却是没问题的。不能以site指令查询中首页在不在第一位来绝对判断网站是不是被降权,只能说可以作为一种预警式的异常现象来分析。
最后再提一个使用site指令结果中网站首页是否在第一位,来判断网站是否降权的小规律。大部分网站都会把带与不带www的域名进行解析,但是一般会把不带www的主域301永久重定向到带www的子域名上。这种情况的网站,如果想使用以上判断方法,那么site指令之后最好使用www域名,因为www域名才是真正参与排名的域名。据观察,对于这种情况的网站,即使在百度搜索site:domain.com得到的结果中,网站首页不在第一位,只要在搜索site:www.domain.com得到的结果中,网站首页在第一位,那么该网站的权重也是没有大问题的。一般site:www.domain.com得到的结果网站首页不在第一位,那么网站被降权的可能性就比较大了。
需要注意的是,有些使用了泛解析的非www子域名可能会有例外。比如,一些为每个公司都提供了多级子域名的B2B网站,在使用site查看这些使用了泛解析的子域名时偶尔也会出现子域名首页不在第一位的情况,但是网站权重完全没有问题。因为这些使用了泛解析的子域名首页本身也是参与排名的,这就和以上所说的情况不同了。可能是百度对过度泛解析的一种反应吧,至于这种反应是否有警告的意义就不得而知了,只能说网站需要多加注意。当然,也有可能百度会对WWW子域名和非www的子域名区分对待,毕竟在行业内大部分人已经把www子域名当成了网站的主域名。
二、索引量和site数据的差别及含义
百度索引量是百度站长平台推出的查询网站真实索引量的工具。在第8章也会有所提及,这里配合site来讨论一下百度索引量的数据。百度在多个地方都在提醒site指令得到的“收录量”并不是真实的索引量,自己站长平台中的数据才是真实的索引量。可能因为大家都使用site的结果太久了,并且百度站长平台给出的数据经常会和site的数据有很大差距,所以有不少朋友都在质疑这个数据的真实性及价值。
百度官方回应这种差异是因为数据没有同步。但是通过跟踪一些大型网站两个数据的变化情况,可以总结出一些常见但不一定适用于全部网站的规律:当网站被降权时,经常会出现索引量远大于site的估算值的情形。site估算值大于索引量的网站往往会有着不错的搜索表现。并且索引量远大于site估算值的网站一般存在大量的垃圾网页。具体表现也不像是百度官方所回应的“数据没有同步”,因为有个被降权的网站在笔者所观察近一年的时间段内,site估算值只有几百万,高峰时有两三千万,但是索引量一直在飙升,峰值甚至超过了一个亿。另外,一些大
型论坛和分类信息网站由于信息质量参差不齐,也经常会出现索引量远大于site指令估算值的情况。
在实际工作中,site结果数的变动趋势往往会和网站流量的变动趋势成正比。如果site结果数为0,不论百度索引量多大,网站都没有搜索流量。由此可以这样认为,site数据更新时的变动,可以反映你的网站中真正参与到搜索排名中的网页变动趋势。现在百度索引量已经把更新频率改成天了,每天百度索引量的变化可以反映在过去一天中你的网站被百度真实索引的数量。
因此,百度索引量可以当做对网站日常更新内容是否符合百度索引标准的参考,site结果数的变动趋势可以当做网站有权重或有质量网页变动的趋势。在网站没有被明显降权时,一般会有这样的规律,如果网站已经被明显降权就没有这样的规律了,很可能索引量和site估算值都很大,但整站网页都没有搜索排名和流量。
据观察site指令的结果数和索引量有“统一”的迹象,其实两者之间有一些区别对站长更有意义,如果百度把两者的数据统一,那么对于站长来说就没有两者都存在的必要了。如果两者数据真的统一,索引量还可以查询精准目录级别的数据,相对来说比site和inurl给出的结果数更有意义,那site和inurl指令就真正回归它们本身的意义了——“只是起到限制搜索范围的作用”。
其实,大家除了关注网站site指令结果数和索引量数据外,最应该关注的应该是网站的“有效收录”数,只有能够为网站带来流量的收录才是有意义的。site结果数和百度索引量再高,没有搜索流量也是枉然。相对来说,站长和东莞seo人员花费更多的精力,关注、监控和分析流量统计中每天网站在搜索引擎中的搜索词个数及着陆页数量更有现实意义。