官方对该工具的介绍为:站长可以通过该工具查询站点的抓取异常数据明细,包括死链、UA封禁、lP封禁、重定向等问题,还提供异常数据下载供站长自行分析。你可以根据这些数据,更高效地解决网站与搜索引擎互动的问题。
官方说明中对“抓取异常”的解释为:对于互联网中可正常访问的内容,百度Spider抓取的结果应与普通用户访问的内容是一致的,除此以外的情况,就是抓取异常。不过综合看抓取异常工具中给出的数据,“异常”不仅仅局限于官方所述的“访问内容不一致”,而是对常见的能给网站在百度搜索中造成不良影响的“异常”都进行了提示。
抓取异常工具所给出的数据是具有非常重要参考意义的。在平时的日志分析中,服务器对Spider返回404、301、302、403、500状态码的URL都是重点分析对象,并且大都是寻找和研究对Spider返回这些状态码页面中非正常的页面,即使有技术支持,也需要人工来逐行发现和提取非正常记录,这是一个非常耗费眼睛、时间和精力的工作。现在百度直接通过抓取异常工具把这些状态码中非正常的抓取数据举例给出来了,既为不懂得分析网站日志的站长提供了技术数据支持,也为经常进行日志分析的站长和东莞seo人员免去了大量枯燥繁杂的工作,当仅仅需要研究这几个状态码的情况时,不再需要针对庞大的日志文件进行提取分析了,直接根据此工具给出的示例数据进行扩展分析就可以了。
抓取异常工具除帮助站长和东莞seo人员减少网站日志分析工作之外,还提供一些网站日志无法体现的百度官方权威的数据。比如在百度搜索眼中:网站是否存在判断百度Spider,然后专门返回和普通用户不同内容网页的情况;网站是否存在针对来自于百度搜索的用户和其他来源用户返回不同内容网页:网站是否存在针对已经被百度索引的网页进行直接JS跳转等有作弊嫌疑的行为。有时网站可能不是出于作弊,只是技术操作失误,或网站出现BUG才出现此类异常,网站管理员根据这些数据就可以及时地发现并解决这些问题。
当然这只是百度Spider作为一个普通访问者和Spider的双重身份所给出的异常数据。由于Spider并不会记录cookie,也不会耗费大量时间解读iFrame和JS中的内容,所以站长通过Cookie或iFame及JS等方式,来实现Spider及来自于百度搜索的用户和其他普通访问用户所看网页内容不同的目的,不论此工具提醒与否,都不会被当做作弊处理。并且虽然百度表示会提供网站针对不同来源用户返回不同结果的异常数据,但是至今还没有见过有站长获得此类数据及进行这方面的讨论。
抓取异常工具百度官方介绍地址:http://zhanzhang.baidu.com/wiki/96。