哈喽,大家好!好久没写文章了,大家有可能已经把我给忘记了,嘿嘿!这都没有关系,反正我又回来了。(说出这话,我觉得自己好不要脸!)
robots,蜘蛛来网站访问的第一个文件夹。在我刚开始学SEO的时候,不是太了解,只是听说过罢了。后来在改站的时候,进入了网站后台,才发现根目录下真的有一个robots.txt,那么这个文件是干嘛的,它有什么作用呢?
robots里的内容是告诉蜘蛛我的网站那些栏目可以收录,那些文章可以收录,那些标签不能抓取,那些图片不能抓等等,说白了也就是这个文件是站长跟搜索引擎的一个协议,但是有时候其实我很无语,虽然我们定了一个协议,但是人蜘蛛居然可以不遵守。所以有时候你如果发现自己的一些栏目明明屏蔽了,为啥蜘蛛还抓取,这个时候如果你确定自己的robots写的完全正确,那就是蜘蛛的问题了,因为搜索引擎它偶尔也会犯病呀!嘿嘿!人无完人,搜索引擎也一样。
接下来就说说robots的写法吧
Sitemap: 网站域名/sitemap.xml——这是告诉蜘蛛顺着你的网站地图走
User-agent: *——这是说明搜索引擎爬虫,*代表容许所有搜索引擎爬虫,如果你只想容许某一个爬虫,在这里可以申明,(举一些爬虫的名字:百度Baiduspider、谷歌Googlebot、360蜘蛛360Spider、SOSO蜘蛛Sosospider、雅虎蜘蛛Yahoo!、有道蜘蛛YoudaoBot、搜狗蜘蛛Sogou News Spider等等)
Disallow 代表禁止访问抓取,后面用“/”代表层次关系
Disallow:/ (代表禁止抓取网站所有内容)
Disallow:/wword (禁止抓取wword及其层次下的内容)
Disallow:/wword/ (禁止抓取wword层次下的内容,但是允许抓wword)
Disallow:/*.png (禁止抓取png格式的图片)
Disallow:/wword/*.png (禁止访问wword层次下的png格式的图片)
Disallow:/*?* (屏蔽站内所有动态URL,因为动态地址都带?所有可以用这种形式,其他的字符也可以)
Disallow:/wword/*?* (只屏蔽wword层次下的动态地址)
Disallow:/wword/*?/ (屏蔽wword栏目下的动态层次下的内容)
在平时写的时候,大家可以灵活运用!
在这里我想应该会有人已经想问,这都是不容许,那么如果容许的话,应该怎么写,下面就是。
Allow代表允许访问抓取
Allow:/wword (容许抓取wword及其层次下的内容)
到这里我想说一下,我平时写robots时,我都会把Allow写在前面,Disallow写在后面,我觉得这样Allow不会受Disallow的影响,这样写有没有好处呢,反正我还没有得到答案,只是我自己习惯这样写。
robots—蜘蛛来网站访问的第一个文件,上面就是一些有关robots的注意事项,希望能帮助到大家,同时也祝愿大家的网站排名越来越好。