已拦截的网址(运行状况)工具给出了Googlebot统计到的网站robots.txt文件已经拦截Googlebot抓取的网址,可以让站长和东莞seo人员清楚地了解到robots.txt文件的设置是否符合自己的预期。此工具还有一项很被站长和东莞seo人员依赖的robots.txt测试工具,比其他站长工具中只是辅助编写robots.txt文件要强大得多。大部分站长和东莞seo人员在制作robots.txt文件时,经常会有个疑问,就是编写的规则是否正确,是否能够屏蔽目标URL,是否屏蔽了不该屏蔽的URL。
简单一级目录的屏蔽规则很容易确定,但是对于涉及多层目录或者通配符的规则,很多人是拿捏不准的,此时保险起见,还是要多用此工具进行一些测试。
假设,不确定“Disallow:/tmp”是不是能屏蔽以下3个URL:
www.pizirui.com/tmpdaf
www.pizirui.com/dfsef/tmpdaf
www.pizirui.com/tmp/
就可以用此工具测试一下,测试结果如图7-54所示,可见“Disallow:/tmp”并不能拦截根目录下非“tmp”开头的URL,也就是说可以拦截域名后以“tmp”开头的URL,并不能拦截其他含有“tmp”字符串的URL。如果网站robots.txt文件已经有了一定量的拦截规则,那么在新网站URL结构的设计中就要多多使用Google Webmaster工具进行测试一下,以防辛苦设计的新URL不被搜索引擎收录。
这个测试工具是针对Googlebot的,虽然大部分情况下各个搜索引擎都是通用的,但是不同搜索引擎也会有一定的差异。比如百度对robots.txt协议的解析有点不同,在百度官方帮助文档中就有这么一个匹配(如图7-55所示),看最后一行/tmp并不能匹配/tmphoho,但是上面测试中,Google Webmaster给出的测试结果/tmp是能够匹配/tmpdaf的。/tmphoho和/tmpdaf是同一种结构,但是两个搜索引擎的匹配情况不同。所以在制作robots.txt文件时,一定要注意这方面的问题。或者使用更精准的写法,不使用以上模糊匹配的写法,或者多多研究不同搜索引擎对robots的支持规则并进行单独设置,以防出现意外的错误。
长按二维码关注我们吧
不要错过