robots—蜘蛛来网站访问的第一个文件

网络营销评论78

robots—蜘蛛来网站访问的第一个文件-图片1

robots—蜘蛛来网站访问的第一个文件-图片2

哈喽,大家好!好久没写文章了,大家有可能已经把我给忘记了,嘿嘿!这都没有关系,反正我又回来了。(说出这话,我觉得自己好不要脸!)

robots,蜘蛛来网站访问的第一个文件夹。在我刚开始学SEO的时候,不是太了解,只是听说过罢了。后来在改站的时候,进入了网站后台,才发现根目录下真的有一个robots.txt,那么这个文件是干嘛的,它有什么作用呢?

robots里的内容是告诉蜘蛛我的网站那些栏目可以收录,那些文章可以收录,那些标签不能抓取,那些图片不能抓等等,说白了也就是这个文件是站长跟搜索引擎的一个协议,但是有时候其实我很无语,虽然我们定了一个协议,但是人蜘蛛居然可以不遵守。所以有时候你如果发现自己的一些栏目明明屏蔽了,为啥蜘蛛还抓取,这个时候如果你确定自己的robots写的完全正确,那就是蜘蛛的问题了,因为搜索引擎它偶尔也会犯病呀!嘿嘿!人无完人,搜索引擎也一样。

接下来就说说robots的写法吧

Sitemap: 网站域名/sitemap.xml——这是告诉蜘蛛顺着你的网站地图走

User-agent: *——这是说明搜索引擎爬虫,*代表容许所有搜索引擎爬虫,如果你只想容许某一个爬虫,在这里可以申明,(举一些爬虫的名字:百度Baiduspider、谷歌Googlebot、360蜘蛛360Spider、SOSO蜘蛛Sosospider、雅虎蜘蛛Yahoo!、有道蜘蛛YoudaoBot、搜狗蜘蛛Sogou News Spider等等)

Disallow 代表禁止访问抓取,后面用“/”代表层次关系

Disallow:/ (代表禁止抓取网站所有内容)

Disallow:/wword (禁止抓取wword及其层次下的内容)

Disallow:/wword/ (禁止抓取wword层次下的内容,但是允许抓wword)

Disallow:/*.png (禁止抓取png格式的图片)

Disallow:/wword/*.png (禁止访问wword层次下的png格式的图片)

Disallow:/*?* (屏蔽站内所有动态URL,因为动态地址都带?所有可以用这种形式,其他的字符也可以)

Disallow:/wword/*?* (只屏蔽wword层次下的动态地址)

Disallow:/wword/*?/ (屏蔽wword栏目下的动态层次下的内容)

在平时写的时候,大家可以灵活运用!

在这里我想应该会有人已经想问,这都是不容许,那么如果容许的话,应该怎么写,下面就是。

Allow代表允许访问抓取

Allow:/wword (容许抓取wword及其层次下的内容)

到这里我想说一下,我平时写robots时,我都会把Allow写在前面,Disallow写在后面,我觉得这样Allow不会受Disallow的影响,这样写有没有好处呢,反正我还没有得到答案,只是我自己习惯这样写。

robots—蜘蛛来网站访问的第一个文件,上面就是一些有关robots的注意事项,希望能帮助到大家,同时也祝愿大家的网站排名越来越好。


 
挖掘关键词介绍 网络营销

挖掘关键词介绍

在关键词研究一章也提到过,流量分析是发现新关键词的途径之一。在GA中查看带来流量的关键词,除了预期中的目标关键词,还经常发现自己以前完全没想到的、五花八门的搜索词。其中与网站主题不相关,只是因为页面上...
高考前一天,他们居然聚众...... 网络营销

高考前一天,他们居然聚众……

看来儿子还是只能靠自己,老子没法靠了...待骚年和姑娘们换好酷毙的服装后,大家开始了“跟我左手右手一个慢动作..”咳咳,预热准备!有对手的训练场更刺激!分组PK了!项目开始了!咦?这位骚年在说什么好高...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: